このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220505となっている論文です。

PDF登録状況(公開日: 20220505)

TitleAuthorsAbstract論文公表日・翻訳日
# インテリジェントトランスポーテーションシステムのオーケストレーション - 学んだ教訓と可能性

Intelligent Transportation Systems' Orchestration: Lessons Learned & Potential Opportunities ( http://arxiv.org/abs/2205.14040v1 )

ライセンス: Link先を確認
Abdallah Moubayed and Abdallah Shami and Abbas Ibrahim(参考訳) 5gネットワークのグローバル展開の努力は、企業やサービスのデジタルトランスフォーメーションの加速につながった。 この成長は、この変革を促進する新しいコミュニケーション技術の必要性につながった。 6Gはこの目標を達成するための技術とアーキテクチャのセットとして提案されている。 5Gネットワークで登場し、今後も6Gネットワークにおいて重要な役割を果たす主要なユースケースの1つは、Intelligent Transportation Systems (ITS) である。 効率的で効果的なITSの開発とデプロイのすべての計画されたメリットは、対処しなければならない、ユニークな課題の集まりをもたらします。 注目すべき課題は、様々なサポート技術と、望まれるITSアプリケーション/サービスを提供するために使用される異種ネットワークのため、ITSオーケストレーションである。 そこで本論文では,ITS のオーケストレーションの課題について,文献からの先行研究を取り上げ,現在のITS デプロイメントオーケストレーションの取り組みから学んだ教訓を列挙することによって,詳細に取り上げる。 また、強化学習やフェデレーション学習といったパラダイムを効果的かつ効率的なITSオーケストレーションに展開する、データ駆動型研究の機会を複数提示する。

The growing deployment efforts of 5G networks globally has led to the acceleration of the businesses/services& #x27; digital transformation. This growth has led to the need for new communication technologies that will promote this transformation. 6G is being proposed as the set of technologies and architectures that will achieve this target. Among the main use cases that have emerged for 5G networks and will continue to play a pivotal role in 6G networks is that of Intelligent Transportation Systems (ITSs). With all the projected benefits of developing and deploying efficient and effective ITSs comes a group of unique challenges that need to be addressed. One prominent challenge is ITS orchestration due to the various supporting technologies and heterogeneous networks used to offer the desired ITS applications/service s. To that end, this paper focuses on the ITS orchestration challenge in detail by highlighting the related previous works from the literature and listing the lessons learned from current ITS deployment orchestration efforts. It also presents multiple potential data-driven research opportunities in which paradigms such as reinforcement learning and federated learning can be deployed to offer effective and efficient ITS orchestration.
翻訳日:2022-06-12 11:18:07 公開日:2022-05-05
# (参考訳) ST-ExpertNet - トラフィック予測のためのエキスパートフレームワーク [全文訳有]

ST-ExpertNet: A Deep Expert Framework for Traffic Prediction ( http://arxiv.org/abs/2205.07851v1 )

ライセンス: CC BY 4.0
Hongjun Wang, Jiyuan Chen, Zipei Fan, Zhiwen Zhang, Zekun Cai, and Xuan Song(参考訳) 近年,群集流の予測が重要な研究課題となり,多くの技術が優れた成果を上げている。 誰もが知っているように、都市全体の流量は、都市部機能分布(商業地域、教育地域、公園など)によって引き起こされるいくつかの基本的なパターン(通勤、労働、商業など)と混合状態にある。 しかし,混合流れテンソルを学習するための包括的モデルのみを構築したいため,領域間のフローパターンの違いを考慮せず,既存の技術が批判されている。 この制限を認識して、フロー予測の新しい視点を示し、ST-ExpertNetと呼ばれる説明可能なフレームワークを提案し、これは、すべての時空間モデルを採用し、特定のフローパターンに特化した機能専門家のセットを訓練することができる。 技術的には、専門家の混合(moe)に基づいて専門家を訓練し、gating networkを使って各専門家がサンプル空間内のさまざまなフローパターンを専門的に扱うように指導します。 総合性、スパース性、正確性などいくつかの基準を定義し、よりよい解釈可能性と性能のための専門家を構築する。 われわれは北京とニューヨークで、さまざまな現実世界のタクシーや自転車のデータセットを実験している。 専門家の中間結果の可視化により,st-expertnetは都市の混合流れテンソルと都市配置,例えば都市環状道路構造とを分離することに成功した。 ST-ResNet、ConvLSTM、CNNなどの異なるネットワークアーキテクチャが実験のためにST-ExpertNetフレームワークに採用され、その結果、解釈性と性能の両方において、我々のフレームワークの優位性を示している。

Recently, forecasting the crowd flows has become an important research topic, and plentiful technologies have achieved good performances. As we all know, the flow at a citywide level is in a mixed state with several basic patterns (e.g., commuting, working, and commercial) caused by the city area functional distributions (e.g., developed commercial areas, educational areas and parks). However, existing technologies have been criticized for their lack of considering the differences in the flow patterns among regions since they want to build only one comprehensive model to learn the mixed flow tensors. Recognizing this limitation, we present a new perspective on flow prediction and propose an explainable framework named ST-ExpertNet, which can adopt every spatial-temporal model and train a set of functional experts devoted to specific flow patterns. Technically, we train a bunch of experts based on the Mixture of Experts (MoE), which guides each expert to specialize in different kinds of flow patterns in sample spaces by using the gating network. We define several criteria, including comprehensiveness, sparsity, and preciseness, to construct the experts for better interpretability and performances. We conduct experiments on a wide range of real-world taxi and bike datasets in Beijing and NYC. The visualizations of the expert's intermediate results demonstrate that our ST-ExpertNet successfully disentangles the city's mixed flow tensors along with the city layout, e.g., the urban ring road structure. Different network architectures, such as ST-ResNet, ConvLSTM, and CNN, have been adopted into our ST-ExpertNet framework for experiments and the results demonstrates the superiority of our framework in both interpretability and performances.
翻訳日:2022-05-22 18:32:51 公開日:2022-05-05
# (参考訳) LPC-AD:潜時予測符号化による高速かつ高精度多変量時系列異常検出 [全文訳有]

LPC-AD: Fast and Accurate Multivariate Time Series Anomaly Detection via Latent Predictive Coding ( http://arxiv.org/abs/2205.08362v1 )

ライセンス: CC BY 4.0
Zhi Qi, Hong Xie, Ye Li, Jian Tan, FeiFei Li, John C.S. Lui(参考訳) 本稿では,高速かつ高精度な多変量時系列(MTS)異常検出法であるLPC-ADを提案する。 LPC-ADは、クラウドコンピューティングやマイクロサービスシステムなどにおける高速なトラブルシューティングをサポートするために、高速で正確なMSS異常検出方法に対する、ますます増加するニーズによって動機付けられています。 LPC-ADは、トレーニング速度に焦点を当てた最先端(SOTA)ディープラーニング手法と比較して、トレーニング時間を最大38.2%短縮するという意味で高速である。 lpc-adは、検出精度の向上に重点を置いたsomaの高度なディープラーニング手法と比較して、検出精度を最大18.9%向上させるという意味で正確である。 方法論的には、LPC-ADは、トレーニング速度と検出精度の異なるトレードオフを達成するために、汎用アーキテクチャのLPC-Reconstructに寄与する。 より具体的には、LPC-Reconstructは、時系列における冗長性を低減するためのオートエンコーダ、MSSにおける時間的依存をキャプチャするための遅延予測符号化、トレーニングデータにおける異常依存の過度な適合を避けるためのランダム化摂動に基づく。 高速トレーニングを実現するため,LPC-Reconstruct の簡易インスタンス化を行い,簡単なランダム化摂動法を提案する。 sota法に対するlpc-adの優れた性能は、4つの大規模実世界のデータセットに対する広範囲な実験によって検証される。 実験結果は,LPC-Reconstructアーキテクチャの各コンポーネントの必要性とメリットを示し,LPC-ADはハイパーパラメータに対して堅牢であることを示した。

This paper proposes LPC-AD, a fast and accurate multivariate time series (MTS) anomaly detection method. LPC-AD is motivated by the ever-increasing needs for fast and accurate MTS anomaly detection methods to support fast troubleshooting in cloud computing, micro-service systems, etc. LPC-AD is fast in the sense that its reduces the training time by as high as 38.2% compared to the state-of-the-art (SOTA) deep learning methods that focus on training speed. LPC-AD is accurate in the sense that it improves the detection accuracy by as high as 18.9% compared to SOTA sophisticated deep learning methods that focus on enhancing detection accuracy. Methodologically, LPC-AD contributes a generic architecture LPC-Reconstruct for one to attain different trade-offs between training speed and detection accuracy. More specifically, LPC-Reconstruct is built on ideas from autoencoder for reducing redundancy in time series, latent predictive coding for capturing temporal dependence in MTS, and randomized perturbation for avoiding overfitting of anomalous dependence in the training data. We present simple instantiations of LPC-Reconstruct to attain fast training speed, where we propose a simple randomized perturbation method. The superior performance of LPC-AD over SOTA methods is validated by extensive experiments on four large real-world datasets. Experiment results also show the necessity and benefit of each component of the LPC-Reconstruct architecture and that LPC-AD is robust to hyper parameters.
翻訳日:2022-05-22 18:06:06 公開日:2022-05-05
# (参考訳) REAL ML: 機械学習研究における限界を認識し,探索し,記録する

REAL ML: Recognizing, Exploring, and Articulating Limitations of Machine Learning Research ( http://arxiv.org/abs/2205.08363v1 )

ライセンス: CC BY 4.0
Jessie J. Smith, Saleema Amershi, Solon Barocas, Hanna Wallach, Jennifer Wortman Vaughan(参考訳) 限界に関する透明性は、研究の科学的厳密さを改善し、研究結果の適切な解釈を確実にし、研究の主張をより信頼できるものにする。 これらの利点にもかかわらず、機械学習(ML)研究コミュニティは、制限の開示と議論に関して、十分に発達した規範を欠いている。 このギャップに対処するために、30人のML研究者とML隣接研究者による反復的な設計プロセスを実施し、REAL MLを開発し、テストする。 3段階のインタビューと調査の結果から,ml研究者の制限に対する認識と,制限を認識し,探索し,認識する上での課題を明らかにした。 我々は,これらの実践的な課題に対処するためにREAL MLを開発し,コミュニティ規範のより広範なシフトを必要とする文化的な課題を強調している。 我々は,我々の研究とREAL MLが,ML研究コミュニティをより活発かつ適切な制限への関与へと移行するのに役立つことを願っている。

Transparency around limitations can improve the scientific rigor of research, help ensure appropriate interpretation of research findings, and make research claims more credible. Despite these benefits, the machine learning (ML) research community lacks well-developed norms around disclosing and discussing limitations. To address this gap, we conduct an iterative design process with 30 ML and ML-adjacent researchers to develop and test REAL ML, a set of guided activities to help ML researchers recognize, explore, and articulate the limitations of their research. Using a three-stage interview and survey study, we identify ML researchers' perceptions of limitations, as well as the challenges they face when recognizing, exploring, and articulating limitations. We develop REAL ML to address some of these practical challenges, and highlight additional cultural challenges that will require broader shifts in community norms to address. We hope our study and REAL ML help move the ML research community toward more active and appropriate engagement with limitations.
翻訳日:2022-05-22 17:41:53 公開日:2022-05-05
# (参考訳) REMuS-GNN:連続体力学シミュレーションのための回転同変モデル [全文訳有]

REMuS-GNN: A Rotation-Equivariant Model for Simulating Continuum Dynamics ( http://arxiv.org/abs/2205.07852v1 )

ライセンス: CC BY 4.0
Mario Lino, Stati Fotiadis, Anil A. Bharath and Chris Cantwell(参考訳) 数値シミュレーションは科学や工学の多くの分野において欠かせないツールであるが、その性能は実際や大きなパラメータ空間の探索に使用される場合に制限されることが多い。 一方、シミュレーションを加速する一方で、深層学習モデルは、しばしば精度が悪く、一般化する能力も低い。 これらの2つの要因を改善するために,長さスケールを含む連続体力学系をシミュレーションする回転同変マルチスケールモデルREMuS-GNNを導入する。 REMuS-GNNは、未構造化ノードに識別された物理領域上の入力ベクトル場から出力ベクトル場を予測するように設計されている。 ドメインの回転に等しくなることは、ネットワークが基礎となる物理をより効率的に学習できる望ましい帰納バイアスであり、そのような対称性を持たない類似のアーキテクチャと比較して精度と一般化が向上する。 本手法は, 楕円円柱まわりの非圧縮性流れについて実証し, 評価する。

Numerical simulation is an essential tool in many areas of science and engineering, but its performance often limits application in practice or when used to explore large parameter spaces. On the other hand, surrogate deep learning models, while accelerating simulations, often exhibit poor accuracy and ability to generalise. In order to improve these two factors, we introduce REMuS-GNN, a rotation-equivariant multi-scale model for simulating continuum dynamical systems encompassing a range of length scales. REMuS-GNN is designed to predict an output vector field from an input vector field on a physical domain discretised into an unstructured set of nodes. Equivariance to rotations of the domain is a desirable inductive bias that allows the network to learn the underlying physics more efficiently, leading to improved accuracy and generalisation compared with similar architectures that lack such symmetry. We demonstrate and evaluate this method on the incompressible flow around elliptical cylinders.
翻訳日:2022-05-22 17:40:42 公開日:2022-05-05
# (参考訳) 敵対的ニューラルネットワークによる異種ドメイン適応:eコマースとサイバーセキュリティの実験 [全文訳有]

Heterogeneous Domain Adaptation with Adversarial Neural Representation Learning: Experiments on E-Commerce and Cybersecurity ( http://arxiv.org/abs/2205.07853v1 )

ライセンス: CC BY 4.0
Mohammadreza Ebrahimi, Yidong Chai, Hao Helen Zhang, Hsinchun Chen(参考訳) トレーニングデータが少ない新しいドメインで予測モデルを学ぶことは、現代の教師付き学習シナリオではますます難しい。 これにより、既知のドメイン(ソース)の知識を活用し、異なる確率分布を持つ新しいドメイン(ターゲット)に適応するドメイン適応手法の開発が促進される。 ソースドメインとターゲットドメインがヘテロジニアスな特徴空間(ヘテロジニアスなドメイン適応(hda)と呼ばれる)にある場合、これはより困難になる。 ほとんどのHDA法は、ソースとターゲットデータを共通空間にマッピングするために数学的最適化を利用するが、転送性が低い。 神経表現はより移動しやすいことが証明されているが、主に均質な環境向けに設計されている。 ドメイン適応の理論に基づいて、異種環境における伝達性を効果的に最大化するための新しいフレームワーク、ヘテロジニアス・アダプティブ(HANDA)を提案する。 handaは統合ニューラルネットワークアーキテクチャで特徴と分布のアライメントを行い、敵のカーネル学習を通じてドメイン不変性を達成する。 画像とテキストの電子商取引ベンチマークを用いて,最先端HDA手法に対する性能評価を3つの実験により行った。 HANDAは予測性能の統計的に有意な改善を示している。 HANDAの実用性は、現実世界のダークウェブオンラインマーケットで示された。 HANDAは、eコマースアプリケーションにおけるドメイン適応の成功への重要なステップである。

Learning predictive models in new domains with scarce training data is a growing challenge in modern supervised learning scenarios. This incentivizes developing domain adaptation methods that leverage the knowledge in known domains (source) and adapt to new domains (target) with a different probability distribution. This becomes more challenging when the source and target domains are in heterogeneous feature spaces, known as heterogeneous domain adaptation (HDA). While most HDA methods utilize mathematical optimization to map source and target data to a common space, they suffer from low transferability. Neural representations have proven to be more transferable; however, they are mainly designed for homogeneous environments. Drawing on the theory of domain adaptation, we propose a novel framework, Heterogeneous Adversarial Neural Domain Adaptation (HANDA), to effectively maximize the transferability in heterogeneous environments. HANDA conducts feature and distribution alignment in a unified neural network architecture and achieves domain invariance through adversarial kernel learning. Three experiments were conducted to evaluate the performance against the state-of-the-art HDA methods on major image and text e-commerce benchmarks. HANDA shows statistically significant improvement in predictive performance. The practical utility of HANDA was shown in real-world dark web online markets. HANDA is an important step towards successful domain adaptation in e-commerce applications.
翻訳日:2022-05-22 17:27:48 公開日:2022-05-05
# cfdシミュレーションのためのml-surrogatesのデータニーズの解明

Demystifying the Data Need of ML-surrogates for CFD Simulations ( http://arxiv.org/abs/2205.08355v1 )

ライセンス: Link先を確認
Tongtao Zhang, Biswadip Dey, Krishna Veeraraghavan, Harshad Kulkarni, Amit Chakraborty(参考訳) 計算流体力学(CFD)シミュレーションは、様々な工学的応用において重要なツールであり、しばしばフロー特性を予測するのにかなりの時間と計算能力を必要とする。 CFDシミュレーションに関連した高い計算コストは、設計空間探索の範囲を著しく制限し、計画と運用管理における使用を制限する。 この問題に対処するために、CFDシミュレーションを高速化するための計算効率の良いツールとして、機械学習(ML)ベースのサロゲートモデルが提案されている。 しかしながら、cfdデータ要件の明確さの欠如は、設計エンジニアやcfd実践者の間でmlベースのサロゲートが広く採用されることにしばしば挑戦する。 本研究では,様々な運転条件下で客車室内の温度分布を予測し,予測性能とトレーニングデータセットサイズとのトレードオフを示すために,mlに基づくサロゲートモデルを提案する。 その結果,トレーニングサイズを2000から200に減らした場合でも,予測精度が高く安定していることがわかった。 mlベースのサーロゲートは計算時間を30分から9ミリ秒に短縮する。 さらに、トレーニングに50個のCFDシミュレーションしか使わなくても、MLサロゲートによって予測される温度トレンド(例えば、ホット/コールド領域の位置)は、CFDシミュレーションの結果とよく一致している。

Computational fluid dynamics (CFD) simulations, a critical tool in various engineering applications, often require significant time and compute power to predict flow properties. The high computational cost associated with CFD simulations significantly restricts the scope of design space exploration and limits their use in planning and operational control. To address this issue, machine learning (ML) based surrogate models have been proposed as a computationally efficient tool to accelerate CFD simulations. However, a lack of clarity about CFD data requirements often challenges the widespread adoption of ML-based surrogates among design engineers and CFD practitioners. In this work, we propose an ML-based surrogate model to predict the temperature distribution inside the cabin of a passenger vehicle under various operating conditions and use it to demonstrate the trade-off between prediction performance and training dataset size. Our results show that the prediction accuracy is high and stable even when the training size is gradually reduced from 2000 to 200. The ML-based surrogates also reduce the compute time from ~30 minutes to around ~9 milliseconds. Moreover, even when only 50 CFD simulations are used for training, the temperature trend (e.g., locations of hot/cold regions) predicted by the ML-surrogate matches quite well with the results from CFD simulations.
翻訳日:2022-05-22 11:43:14 公開日:2022-05-05
# DouFu: 軌道表現を駆動するための二重融合統合学習法

DouFu: A Double Fusion Joint Learning Method For Driving Trajectory Representation ( http://arxiv.org/abs/2205.08356v1 )

ライセンス: Link先を確認
Han Wang, Zhou Huang, Xiao Zhou, Ganmin Yin, Yi Bao(参考訳) 走行軌道表現学習は、運転パターンマイニングやルートレコメンデーションなど、様々な位置情報ベースのサービスにとって非常に重要である。 しかし、従来の表現生成アプローチは3つの課題にほとんど対処しない。 1) 移動性の複雑な意味的意図を安価に表現する方法 2) 軌道データのスパース性及び不均一性に起因する複雑で弱い時空間依存性 3)経路選択選好と運転行動との関連性 本稿では,多モーダル学習とアテンション融合モジュールを応用し,トラジェクトリの内部特性を捉えた,トラジェクトリ表現型共同学習のための新しい多モーダル融合モデルDouFuを提案する。 まず、軌跡データと都市機能ゾーンから生成された動き、経路、グローバルな特徴を設計し、それぞれアテンションエンコーダまたはフィードフォワードネットワークを用いて分析する。 注意融合モジュールは、より優れた空間的時間的埋め込みを作成するために、移動機能を備えた経路特徴を組み込む。 グローバルなセマンティック機能により、DouFuは各行に対して包括的な埋め込みを生成する。 本手法および他のベースラインモデルによって生成された表現を分類およびクラスタリングタスクで評価する。 実験の結果、doufuは線形回帰やサポートベクターマシンといった学習アルゴリズムのほとんどにおいて、他のモデルよりも10%以上優れていた。

Driving trajectory representation learning is of great significance for various location-based services, such as driving pattern mining and route recommendation. However, previous representation generation approaches tend to rarely address three challenges: 1) how to represent the intricate semantic intentions of mobility inexpensively; 2) complex and weak spatial-temporal dependencies due to the sparsity and heterogeneity of the trajectory data; 3) route selection preferences and their correlation to driving behavior. In this paper, we propose a novel multimodal fusion model, DouFu, for trajectory representation joint learning, which applies multimodal learning and attention fusion module to capture the internal characteristics of trajectories. We first design movement, route, and global features generated from the trajectory data and urban functional zones and then analyze them respectively with the attention encoder or feed forward network. The attention fusion module incorporates route features with movement features to create a better spatial-temporal embedding. With the global semantic feature, DouFu produces a comprehensive embedding for each trajectory. We evaluate representations generated by our method and other baseline models on classification and clustering tasks. Empirical results show that DouFu outperforms other models in most of the learning algorithms like the linear regression and the support vector machine by more than 10%.
翻訳日:2022-05-22 11:39:58 公開日:2022-05-05
# 片道説明はメッセージではない

One-way Explainability Isn't The Message ( http://arxiv.org/abs/2205.08954v1 )

ライセンス: Link先を確認
Ashwin Srinivasan and Michael Bain and Enrico Coiera(参考訳) 特殊な計算ハードウェア、データ取得、ストレージ技術における最近の工学的発展は、機械学習(ML)の出現を、自律エージェントの設計における歴史的ルーツを超えて広く適用可能な強力なデータ分析の形式と見なしている。 しかし、おそらくは、自己発見能力のあるエージェントの開発に起源があるためか、人間とMLの相互作用にはあまり注意が払われていない。 本稿では,1人以上の意思決定者を支援する自動あるいは半自動化ツールにおけるMLの使用を懸念する。 この文脈における人間と機械の両方に対する要求は、自己発見のための自律エージェントまたは統計データ分析の一部としてのmlの使用と大きく異なると論じている。 我々の主要な立場は、MLシステムの推奨事項の一方的な説明可能性よりも、情報の繰り返し、双方向の可知性によって、そのような人間機械システムの設計を推進すべきであるということです。 インテリジェントな情報交換の反復的なラウンドは、人間も機械も完全な答えを持っていない複雑な現象を理解するのに必要なコラボレーションの種類を特徴付けるだろう。 我々は、協調的な意思決定支援システムの設計を導くために、運用原則、いわゆる知性原理を提案します。 原則は次のようなものです (a)人間が提供した情報がmlシステムに対して理解可能であることの意味 b) MLシステムが提供する説明が人間に理解できないことの意味。 薬物設計および医学におけるmlの使用に関する文献の例を用いて, 公理の条件が満たされた事例を示す。 真に協調的な意思決定支援システムの設計に必要な追加要件について述べる。

Recent engineering developments in specialised computational hardware, data-acquisition and storage technology have seen the emergence of Machine Learning (ML) as a powerful form of data analysis with widespread applicability beyond its historical roots in the design of autonomous agents. However -- possibly because of its origins in the development of agents capable of self-discovery -- relatively little attention has been paid to the interaction between people and ML. In this paper we are concerned with the use of ML in automated or semi-automated tools that assist one or more human decision makers. We argue that requirements on both human and machine in this context are significantly different to the use of ML either as part of autonomous agents for self-discovery or as part statistical data analysis. Our principal position is that the design of such human-machine systems should be driven by repeated, two-way intelligibility of information rather than one-way explainability of the ML-system's recommendations. Iterated rounds of intelligible information exchange, we think, will characterise the kinds of collaboration that will be needed to understand complex phenomena for which neither man or machine have complete answers. We propose operational principles -- we call them Intelligibility Axioms -- to guide the design of a collaborative decision-support system. The principles are concerned with: (a) what it means for information provided by the human to be intelligible to the ML system; and (b) what it means for an explanation provided by an ML system to be intelligible to a human. Using examples from the literature on the use of ML for drug-design and in medicine, we demonstrate cases where the conditions of the axioms are met. We describe some additional requirements needed for the design of a truly collaborative decision-support system.
翻訳日:2022-05-22 11:39:04 公開日:2022-05-05
# 基礎追跡の構造拡張--敵対的ロバスト性に関する保証

Structural Extensions of Basis Pursuit: Guarantees on Adversarial Robustness ( http://arxiv.org/abs/2205.08955v1 )

ライセンス: Link先を確認
D\'avid Szeghy, Mahmoud Aslan, \'Aron F\'othi, Bal\'azs M\'esz\'aros, Zolt\'an \'Ad\'am Milacski, Andr\'as L\H{o}rincz(参考訳) ディープニューラルネットワークは敵の雑音に敏感であるが、Basis Pursuit (BP)法によるスパースコーディングは多層拡張を含むこのような攻撃に対して堅牢である。 BPの安定性定理は以下の一般化に成り立つことを証明している。 (i) 正規化手順は、異なる重みを持つ解離群に分けることができる。 (ii)ニューロン又は全層がグループを形成することができる。 (iii) 正規化器は$\ell_1$ノルムの様々な一般化形式を取る。 この結果は、cazenavette et al. (2021)を含むアーキテクチャの一般化の証明を提供する。 (iv) 浅いスパース符号化ネットワークとしての完全なアーキテクチャの近似。 この近似により,浅層ネットワークを用いた実験を行い,合成データセットとmnistを用いた反復高速勾配符号法に対するロバスト性について検討した。 我々は,群の$\ell_2$ノルムに基づく分類を導入し,その精度と高速化を数値的に示す。 このファミリーでは、線形変圧器が最高の性能を示す。 理論的結果と数値シミュレーションに基づいて,さらなる性能向上が期待できる数値的問題を明らかにする。

While deep neural networks are sensitive to adversarial noise, sparse coding using the Basis Pursuit (BP) method is robust against such attacks, including its multi-layer extensions. We prove that the stability theorem of BP holds upon the following generalizations: (i) the regularization procedure can be separated into disjoint groups with different weights, (ii) neurons or full layers may form groups, and (iii) the regularizer takes various generalized forms of the $\ell_1$ norm. This result provides the proof for the architectural generalizations of Cazenavette et al. (2021), including (iv) an approximation of the complete architecture as a shallow sparse coding network. Due to this approximation, we settled to experimenting with shallow networks and studied their robustness against the Iterative Fast Gradient Sign Method on a synthetic dataset and MNIST. We introduce classification based on the $\ell_2$ norms of the groups and show numerically that it can be accurate and offers considerable speedups. In this family, linear transformer shows the best performance. Based on the theoretical results and the numerical simulations, we highlight numerical matters that may improve performance further.
翻訳日:2022-05-22 11:38:41 公開日:2022-05-05
# (参考訳) マルチモーダルセンサを用いた認知負荷の測定 [全文訳有]

Measuring Cognitive Workload Using Multimodal Sensors ( http://arxiv.org/abs/2205.04235v1 )

ライセンス: CC BY 4.0
Niraj Hirachan, Anita Mathews, Julio Romero, Raul Fernandez Rojas(参考訳) 本研究の目的は,マルチモーダルセンシングと機械学習を用いて認知負荷を推定する指標のセットを特定することである。 2段階の作業難易度(安易かつ硬度)で12名の被験者に認知的作業負荷を誘発する3つの認知テストを実施した。 心電図(ECG)、心電図(EDA)、呼吸(RESP)、酸素飽和(SpO2)の4つのセンサーが被験者の生理的変化を測定した。 認識作業の負荷を理解するため、NASA-TLXは各テスト後に使用し、Chi-Squareテストを用いて分析した。 3つの知識分類器(LDA, SVM, DT)を生理的データを用いて独立に訓練・試験した。 統計的分析の結果, 被験者の認知的作業負荷は, 異なる認知レベルを誘導する実験条件の有効性を示すテスト間で有意に異なる (p<0.001) ことがわかった。 分類の結果,ECGとEDAの融合は認知負荷検出に優れた判別力(acc=0.74)を示した。 本研究は,認知負荷の指標セットの同定における予備的な結果を提供する。 より現実的なシナリオとより人口の多い指標を検証するためには、今後の作業が必要である。

This study aims to identify a set of indicators to estimate cognitive workload using a multimodal sensing approach and machine learning. A set of three cognitive tests were conducted to induce cognitive workload in twelve participants at two levels of task difficulty (Easy and Hard). Four sensors were used to measure the participants' physiological change, including, Electrocardiogram (ECG), electrodermal activity (EDA), respiration (RESP), and blood oxygen saturation (SpO2). To understand the perceived cognitive workload, NASA-TLX was used after each test and analysed using Chi-Square test. Three well-know classifiers (LDA, SVM, and DT) were trained and tested independently using the physiological data. The statistical analysis showed that participants' perceived cognitive workload was significantly different (p<0.001) between the tests, which demonstrated the validity of the experimental conditions to induce different cognitive levels. Classification results showed that a fusion of ECG and EDA presented good discriminating power (acc=0.74) for cognitive workload detection. This study provides preliminary results in the identification of a possible set of indicators of cognitive workload. Future work needs to be carried out to validate the indicators using more realistic scenarios and with a larger population.
翻訳日:2022-05-15 15:30:01 公開日:2022-05-05
# (参考訳) 変圧器アーキテクチャを改良した胸部x線写真臨床報告生成のための伝達学習の理解 [全文訳有]

Understanding Transfer Learning for Chest Radiograph Clinical Report Generation with Modified Transformer Architectures ( http://arxiv.org/abs/2205.02841v1 )

ライセンス: CC BY 4.0
Edward Vendrow, Ethan Schonfeld(参考訳) 画像キャプションタスクは、医療の人工知能応用でますます普及している。 重要な応用の1つは胸部x線写真からの臨床報告書作成である。 非構造化レポートの臨床的記述は、時間消費とエラーを起こしやすい。 自動化システムは標準化、エラー低減、時間消費、医療アクセス性を改善する。 本稿では,ドメイン固有事前学習の重要性を実証し,医用画像キャプションタスクのための変圧器アーキテクチャを提案する。 そこで我々は,胸部X線画像入力から臨床報告を生成するために,一連の改良型トランスフォーマーを訓練した。 これらの改造トランスには、ImageNet事前学習重量を用いたメッシュメモリ拡張トランスフォーマーアーキテクチャ、CheXpert事前学習重量を用いたメッシュメモリ拡張トランスフォーマーアーキテクチャ、ImageNet事前学習重量とCheXpert事前学習重量を用いた連結埋め込みをエンコーダが通過するメッシュメモリ拡張トランスフォーマーが含まれる。 BLEU(1-4)、ROUGE-L、CIDEr、臨床のCheXbert F1スコアを用いて、我々のモデルを評価し、アートモデルの状態と競合するスコアを示す。 我々は,ImageNetプレトレーニングが医療画像キャプションタスク,特に低頻度(拡張中隔,肺病変,気胸など)に不適であることを示す。 さらに, この二重特徴モデルにより, 特定の疾患(浮腫, 統合, 気胸, 支援装置) および総合的chexbert f1スコアのパフォーマンスが向上し, 今後の研究でさらなる発展が期待できることを示した。 このような二重特徴モデルは、ImageNet事前訓練とドメイン固有の事前訓練の両方を含み、医学における幅広い画像キャプションモデルで使用することができる。

The image captioning task is increasingly prevalent in artificial intelligence applications for medicine. One important application is clinical report generation from chest radiographs. The clinical writing of unstructured reports is time consuming and error-prone. An automated system would improve standardization, error reduction, time consumption, and medical accessibility. In this paper we demonstrate the importance of domain specific pre-training and propose a modified transformer architecture for the medical image captioning task. To accomplish this, we train a series of modified transformers to generate clinical reports from chest radiograph image input. These modified transformers include: a meshed-memory augmented transformer architecture with visual extractor using ImageNet pre-trained weights, a meshed-memory augmented transformer architecture with visual extractor using CheXpert pre-trained weights, and a meshed-memory augmented transformer whose encoder is passed the concatenated embeddings using both ImageNet pre-trained weights and CheXpert pre-trained weights. We use BLEU(1-4), ROUGE-L, CIDEr, and the clinical CheXbert F1 scores to validate our models and demonstrate competitive scores with state of the art models. We provide evidence that ImageNet pre-training is ill-suited for the medical image captioning task, especially for less frequent conditions (eg: enlarged cardiomediastinum, lung lesion, pneumothorax). Furthermore, we demonstrate that the double feature model improves performance for specific medical conditions (edema, consolidation, pneumothorax, support devices) and overall CheXbert F1 score, and should be further developed in future work. Such a double feature model, including both ImageNet pre-training as well as domain specific pre-training, could be used in a wide range of image captioning models in medicine.
翻訳日:2022-05-10 02:27:56 公開日:2022-05-05
# (参考訳) ジェネレイティブ・アドバーサリアン・ネットワークに基づく合成学習と脊椎x線写真における新しいドメイン関連損失項 [全文訳有]

Generative Adversarial Network Based Synthetic Learning and a Novel Domain Relevant Loss Term for Spine Radiographs ( http://arxiv.org/abs/2205.02843v1 )

ライセンス: CC BY 4.0
Ethan Schonfeld, Anand Veeravagu(参考訳) 問題: 医学におけるディープラーニングモデルのトレーニングには,データ収集とプライバシに関する時間的コストを特徴とするビッグデータが不足している。 GAN(Generative Adversarial Network)は、新たなデータを生成する可能性と、患者の実データを含めることなく、下流アプリケーションにこの新たに生成されたデータを使用することの両方を提供する。 アプローチ: ダウンストリームコンピュータビジョンスピンラジオグラフィ異常分類タスクにおいて, 一連のGANを訓練し, 適用した。 別個の分類器は、元の画像にアクセスまたはアクセスしないよう訓練された。 訓練されたGANには、適応性判別器増強の条件付きStyleGAN2、適応性判別器増強の条件付きStyleGAN2、病変型で条件付の脊椎X線写真を生成する条件付きStyleGAN2、異常性で適応性識別器増強の条件付きStyleGAN2(SpineGAN)の新規臨床損失項が用いられた。 最後に, 適応性判別器拡張条件を付与したStyleGAN2の差分プライバシーをトレーニングし, 差分プライバシー付与に関するアブレーション試験を行った。 主な成果: 文献レビューから, 有意な入力を伴わない合成脊椎X線画像のGAN生成を初めて達成した。 さらに,下級臨床分類タスク(実データを用いた0.886 aucと比較して,合成データを用いた0.830 auc)を用いて,脊椎領域における合成学習の成功を実証した。 重要なこととして, ジェネレータの新規臨床損失項の導入は, 世代リコールの増加とモデルトレーニングの加速に寄与した。 最後に、限られたサイズの医療データセットにおいて、差分プライバシー付与がGANトレーニングを著しく阻害することを示し、これは特にノイズを伴う勾配摂動の要求によるものであることを示した。

Problem: There is a lack of big data for the training of deep learning models in medicine, characterized by the time cost of data collection and privacy concerns. Generative adversarial networks (GANs) offer both the potential to generate new data, as well as to use this newly generated data, without inclusion of patients' real data, for downstream applications. Approach: A series of GANs were trained and applied for a downstream computer vision spine radiograph abnormality classification task. Separate classifiers were trained with either access or no access to the original imaging. Trained GANs included a conditional StyleGAN2 with adaptive discriminator augmentation, a conditional StyleGAN2 with adaptive discriminator augmentation to generate spine radiographs conditional on lesion type, and using a novel clinical loss term for the generator a StyleGAN2 with adaptive discriminator augmentation conditional on abnormality (SpineGAN). Finally, a differential privacy imposed StyleGAN2 with adaptive discriminator augmentation conditional on abnormality was trained and an ablation study was performed on its differential privacy impositions. Key Results: We accomplish GAN generation of synthetic spine radiographs without meaningful input for the first time from a literature review. We further demonstrate the success of synthetic learning for the spine domain with a downstream clinical classification task (AUC of 0.830 using synthetic data compared to AUC of 0.886 using the real data). Importantly, the introduction of a new clinical loss term for the generator was found to increase generation recall as well as accelerate model training. Lastly, we demonstrate that, in a limited size medical dataset, differential privacy impositions severely impede GAN training, finding that this is specifically due to the requirement for gradient perturbation with noise.
翻訳日:2022-05-10 02:13:43 公開日:2022-05-05
# (参考訳) リモートセンシング画像復元のための空間スペクトル規則化を用いたマルチモードテンソルトレインファクタライゼーション [全文訳有]

Multi-mode Tensor Train Factorization with Spatial-spectral Regularization for Remote Sensing Images Recovery ( http://arxiv.org/abs/2205.03380v1 )

ライセンス: CC BY 4.0
Gaohang Yu, Shaochun Wan, Liqun Qi, Yanwei Xu(参考訳) 近年,高次テンソルの低ランク性およびモード相関をよく表現できるテンソルトレイン(TT)の分解とそれに対応するTTランクが注目されている。 しかし、TT分解に基づく手法は一般に3階テンソルの各モードに沿って低ランク性を特徴づけるには不十分である。 これにより、テンソル列の分解をモードkテンソル列の分解に一般化し、対応するマルチモードテンソル列(mtt)のランクを導入する。 そこで我々は,マルチモードtt因子分解と空間スペクトル平滑化による新しい低mttランクテンソル補完モデルを提案した。 提案モデルに取り組むために,効率的な近位交互最小化 (pam) アルゴリズムを開発した。 視覚データを用いた広範囲な数値実験の結果,提案手法は,視覚的および定量的に比較した手法よりも優れていた。

Tensor train (TT) factorization and corresponding TT rank, which can well express the low-rankness and mode correlations of higher-order tensors, have attracted much attention in recent years. However, TT factorization based methods are generally not sufficient to characterize low-rankness along each mode of third-order tensor. Inspired by this, we generalize the tensor train factorization to the mode-k tensor train factorization and introduce a corresponding multi-mode tensor train (MTT) rank. Then, we proposed a novel low-MTT-rank tensor completion model via multi-mode TT factorization and spatial-spectral smoothness regularization. To tackle the proposed model, we develop an efficient proximal alternating minimization (PAM) algorithm. Extensive numerical experiment results on visual data demonstrate that the proposed MTTD3R method outperforms compared methods in terms of visual and quantitative measures.
翻訳日:2022-05-10 02:03:40 公開日:2022-05-05
# (参考訳) adatriplet: 医用画像マッチングのための自動マージン学習による適応勾配三重項損失 [全文訳有]

AdaTriplet: Adaptive Gradient Triplet Loss with Automatic Margin Learning for Forensic Medical Image Matching ( http://arxiv.org/abs/2205.02849v1 )

ライセンス: CC BY 4.0
Khanh Nguyen and Huy Hoang Nguyen and Aleksei Tiulpin(参考訳) 本稿では,深層ニューラルネットワーク(dnn)を用いた法医学画像マッチング(fmim)の課題に取り組む。 FMIMは、コンテンツベース画像検索(CBIR)の特殊な例である。 FMIMにおける主な課題は、CBIRの一般的な場合と比較して、クエリ画像に属する被写体が加齢や進行性変性障害の影響を受けやすいため、被写体レベルでのデータの一致が困難である点である。 DNNを用いたCBIRは、元のデータからDNNによって抽出された画像表現に基づいて計算されたトリプルト損失(TL)のようなランキング損失を最小限にすることで、一般的に解決される。 特にTLは、アンカー、正(アンカーと似ている)、負(アンカーと似ている)の三重項で動作する。 TLは、多くのCBIRタスクでよく機能することが示されているが、まだ制限があり、我々はこの研究を識別し分析している。 本稿では,本論文を紹介する。 (i)アダトリプレット損失 --勾配が異なる負のサンプルの難易度レベルに適応するtlの拡張。 (II)AutoMargin法は,TLや提案した損失などの余剰損失のハイパーパラメータを動的に調整する手法である。 関節症イニシアチブとChest X-ray-14データセットを用いたFMIMの大規模評価を行った。 この研究の複製を可能にするコードは、 \url{https://github.com/O ulu-IMEDS/AdaTriplet }で公開されている。

This paper tackles the challenge of forensic medical image matching (FMIM) using deep neural networks (DNNs). FMIM is a particular case of content-based image retrieval (CBIR). The main challenge in FMIM compared to the general case of CBIR, is that the subject to whom a query image belongs may be affected by aging and progressive degenerative disorders, making it difficult to match data on a subject level. CBIR with DNNs is generally solved by minimizing a ranking loss, such as Triplet loss (TL), computed on image representations extracted by a DNN from the original data. TL, in particular, operates on triplets: anchor, positive (similar to anchor) and negative (dissimilar to anchor). Although TL has been shown to perform well in many CBIR tasks, it still has limitations, which we identify and analyze in this work. In this paper, we introduce (i) the AdaTriplet loss -- an extension of TL whose gradients adapt to different difficulty levels of negative samples, and (ii) the AutoMargin method -- a technique to adjust hyperparameters of margin-based losses such as TL and our proposed loss dynamically. Our results are evaluated on two large-scale benchmarks for FMIM based on the Osteoarthritis Initiative and Chest X-ray-14 datasets. The codes allowing replication of this study have been made publicly available at \url{https://github.com/O ulu-IMEDS/AdaTriplet }.
翻訳日:2022-05-10 01:49:18 公開日:2022-05-05
# (参考訳) Atlas-powered Deep Learning (ADL) -- 拡散強調MRIへの応用 [全文訳有]

Atlas-powered deep learning (ADL) -- application to diffusion weighted MRI ( http://arxiv.org/abs/2205.03210v1 )

ライセンス: CC BY 4.0
Davood Karimi and Ali Gholipour(参考訳) 深層学習は拡散強調磁気共鳴画像(dMRI)において生体マーカーを推定する大きな可能性を秘めている。 一方、アトラスはバイオマーカーの時空間変動をモデル化するためのユニークなツールである。 本稿では,dMRIにおけるバイオマーカー推定にディープラーニングとアトラスを併用した最初のフレームワークを提案する。 本フレームワークは,生体マーカーのアトラス計算やアラス信頼性マップの推定に非線形拡散テンソル登録に依存する。 また, アトラスを被写体にアライメントし, このアライメントの誤差を推定するために, 非線形テンソル登録を用いる。 我々は,バイオマーカー推定のためのディープラーニングモデルへの入力として,dMRI信号に加えて,バイオマーカーアトラス,アトラス信頼性マップ,アライメント誤差マップを用いる。 我々は,70名の新生児検体を対象に,ダウンサンプリングdMRIデータから分画異方性と神経突起方位の分散を推定するために,我々の枠組みを用いた。 その結果,本手法は近年の深層学習技術と同様に,標準推定法よりも大幅に優れていることがわかった。 また,本手法はより強力なダウンサンプリング係数の測定にも有効である。 本研究は,dMRIデータからのバイオマーカー推定において,ディープラーニングとアトラスの利点を相乗的に組み合わせることで,前例のない精度を達成できることを示す。

Deep learning has a great potential for estimating biomarkers in diffusion weighted magnetic resonance imaging (dMRI). Atlases, on the other hand, are a unique tool for modeling the spatio-temporal variability of biomarkers. In this paper, we propose the first framework to exploit both deep learning and atlases for biomarker estimation in dMRI. Our framework relies on non-linear diffusion tensor registration to compute biomarker atlases and to estimate atlas reliability maps. We also use nonlinear tensor registration to align the atlas to a subject and to estimate the error of this alignment. We use the biomarker atlas, atlas reliability map, and alignment error map, in addition to the dMRI signal, as inputs to a deep learning model for biomarker estimation. We use our framework to estimate fractional anisotropy and neurite orientation dispersion from down-sampled dMRI data on a test cohort of 70 newborn subjects. Results show that our method significantly outperforms standard estimation methods as well as recent deep learning techniques. Our method is also more robust to stronger measurement down-sampling factors. Our study shows that the advantages of deep learning and atlases can be synergistically combined to achieve unprecedented accuracy in biomarker estimation from dMRI data.
翻訳日:2022-05-10 01:35:27 公開日:2022-05-05
# (参考訳) 深層学習に基づく高度異種性臨床データ診断のためのマルチコンバウンド回帰対向ネットワーク [全文訳有]

Multi-confound regression adversarial network for deep learning-based diagnosis on highly heterogenous clinical data ( http://arxiv.org/abs/2205.02885v1 )

ライセンス: CC BY 4.0
Matthew Leming, Sudeshna Das, Hyungsoon Im(参考訳) 深層学習を用いた医用画像における疾患の自動検出は, 放射線技師の診断能力の向上を約束するが, 日常的に収集される臨床データは, 病院間で異なる技術的・人口的要因を含むことが多く, 診断深層学習モデルの堅牢性に悪影響を及ぼす。 したがって、サイト固有の結合要因に過剰に適合することなく、不均衡なデータセットをトレーニングできるディープラーニングモデルには、重要なニーズがある。 本研究では,高度に異種な臨床データを用いた深層学習モデルを訓練し,人口統計学と技術共生の要因を緩和する,新しい深層学習アーキテクチャmucran(multi-confoun d regression adversarial network)を開発した。 我々は、2019年以前にマサチューセッツ総合病院から収集された16,821個の臨床T1軸脳MRIを用いてMUCRANを訓練し、2019年以降のデータを用いてアルツハイマー病(AD)患者を鑑別し、AD薬物の処方薬とICDコードの両方を用いて、非医療的なコントロールグループから同定した。 他病院のMRIデータを用いた外部検証試験では、新たに収集したデータに対して90%以上の精度で頑健な性能を示した。 本研究は,実世界臨床データにおける深層学習に基づく診断の可能性を示す。

Automated disease detection in medical images using deep learning holds promise to improve the diagnostic ability of radiologists, but routinely collected clinical data frequently contains technical and demographic confounding factors that differ between hospitals, negatively affecting the robustness of diagnostic deep learning models. Thus, there is a critical need for deep learning models that can train on imbalanced datasets without overfitting to site-specific confounding factors. In this work, we developed a novel deep learning architecture, MUCRAN (Multi-Confound Regression Adversarial Network), to train a deep learning model on highly heterogeneous clinical data while regressing demographic and technical confounding factors. We trained MUCRAN using 16,821 clinical T1 Axial brain MRIs collected from Massachusetts General Hospital before 2019 and tested it using post-2019 data to distinguish Alzheimer's disease (AD) patients, identified using both prescriptions of AD drugs and ICD codes, from a non-medicated control group. In external validation tests using MRI data from other hospitals, the model showed a robust performance of over 90% accuracy on newly collected data. This work shows the feasibility of deep learning-based diagnosis in real-world clinical data.
翻訳日:2022-05-10 01:23:22 公開日:2022-05-05
# (参考訳) 深部物体検出器のコンテキスト評価 [全文訳有]

Evaluating Context for Deep Object Detectors ( http://arxiv.org/abs/2205.02887v1 )

ライセンス: CC BY 4.0
Osman Semih Kayhan and Jan C. van Gemert(参考訳) どのオブジェクト検出器がコンテキストに敏感なタスクに適しているか? ディープオブジェクト検出器はシーンコンテキストを異なる認識に活用する。 本稿では,対象検出器を文脈利用の3つのカテゴリに分類する: 入力(RCNN)をトリミングするコンテキストなし,特徴写像(2段階法)をトリミングする部分的コンテキストなし,全文脈をトリミングしない(1段階法)。 各深部検出器カテゴリにおけるコンテキストの影響を体系的に評価する。 我々は、状況に応じて完全に制御されたデータセットを作成し、深層検出器のコンテキストを調査する。 また,MS COCOにおける背景コンテキストと前景オブジェクトの段階的除去についても検討した。 単段および二段の物体検出器は、その大きな受容場により、コンテキストを使うことができる。 したがって、最高のオブジェクト検出器を選択することは、アプリケーションコンテキストに依存するかもしれない。

Which object detector is suitable for your context sensitive task? Deep object detectors exploit scene context for recognition differently. In this paper, we group object detectors into 3 categories in terms of context use: no context by cropping the input (RCNN), partial context by cropping the featuremap (two-stage methods) and full context without any cropping (single-stage methods). We systematically evaluate the effect of context for each deep detector category. We create a fully controlled dataset for varying context and investigate the context for deep detectors. We also evaluate gradually removing the background context and the foreground object on MS COCO. We demonstrate that single-stage and two-stage object detectors can and will use the context by virtue of their large receptive field. Thus, choosing the best object detector may depend on the application context.
翻訳日:2022-05-10 01:07:20 公開日:2022-05-05
# (参考訳) オントロジの再利用:オントロジ設計の真のテスト [全文訳有]

Ontology Reuse: the Real Test of Ontological Design ( http://arxiv.org/abs/2205.02892v1 )

ライセンス: CC BY 4.0
Piotr Sowinski, Katarzyna Wasielewska-Michniew ska, Maria Ganzha, Marcin Paprzycki, Costin Badica(参考訳) 実際にオントロジーを再利用することは、特に複数のオントロジーが関与する場合、依然として非常に難しい。 さらに、近年の進歩にもかかわらず、体系的なオントロジー品質保証は難しい問題である。 本研究は,30の生物医学オントロジーとコンピュータ科学オントロジーの質を,実践的ユースケースの観点から検討したものである。 特別な精査は、オントロジーの組み合わせに不可欠であるクロスオントロジー参照に与えられる。 自然言語処理やネットワーク分析など,問題を検出する多様な手法が提案されている。 さらに,オントロジー改善のためのいくつかの提案と品質保証プロセスについて述べる。 オントロジの品質保証のための自動ツールの進歩はオントロジの改善に不可欠であるが、完全には解決しないと主張している。 オントロジーの質を継続的に検証し改善する究極の方法であるオントロジーの再利用と、その今後の発展を導くものである。 多くの問題は実用的で多様なオントロジの再利用シナリオを通じてのみ発見・修正できる。

Reusing ontologies in practice is still very challenging, especially when multiple ontologies are involved. Moreover, despite recent advances, systematic ontology quality assurance remains a difficult problem. In this work, the quality of thirty biomedical ontologies, and the Computer Science Ontology, are investigated from the perspective of a practical use case. Special scrutiny is given to cross-ontology references, which are vital for combining ontologies. Diverse methods to detect the issues are proposed, including natural language processing and network analysis. Moreover, several suggestions for improving ontologies and their quality assurance processes are presented. It is argued that while the advancing automatic tools for ontology quality assurance are crucial for ontology improvement, they will not solve the problem entirely. It is ontology reuse that is the ultimate method for continuously verifying and improving ontology quality, as well as for guiding its future development. Many issues can be found and fixed only through practical and diverse ontology reuse scenarios.
翻訳日:2022-05-10 00:59:19 公開日:2022-05-05
# (参考訳) インタラクティブなモデルカード: モデルドキュメンテーションへの人間中心のアプローチ [全文訳有]

Interactive Model Cards: A Human-Centered Approach to Model Documentation ( http://arxiv.org/abs/2205.02894v1 )

ライセンス: CC BY 4.0
Anamaria Crisan, Margaret Drouhard, Jesse Vig, Nazneen Rajani(参考訳) 自然言語処理(NLP)のためのディープラーニングモデルは、NLPや機械学習(ML)の正式なトレーニングなしに、アナリストによって採用され、デプロイされるようになっている。 しかし、モデルの詳細と適切な使用を伝達するためのドキュメンテーションは、主にMLやNLPの専門知識を持つ個人向けに調整されている。 このギャップに対処するため、インタラクティブなモデルカードの設計調査を行い、モデルドキュメンテーションを探索し、モデル自体と対話する余地を、従来の静的なモデルカードに拡張した。 我々の調査は、ML、NLP、AI倫理の専門家による最初の概念的研究と、MLモデルを使用する専門家以外のアナリストによる別の評価研究から成っている。 半構造化された面接形式とシンクアラウドプロトコルを用いて,標準モデルカードとインタラクティブモデルカードの異なるバージョンに関わった参加者30名からフィードバックを収集した。 収集したデータのテーマ分析を通じて,利害関係者,設計者,指導者,理解性と解釈可能性,感覚形成と懐疑主義,信頼と安全など,標準および対話型モデルカードの強みと限界を要約するいくつかの概念的側面を特定した。 本研究は,深層学習モデルを用いた非専門アナリストのオリエンテーションと支援における設計・対話性の重要性と,より広範な社会工学的文脈と組織力学の考察の必要性を明らかにした。 また、対話性をサポートし、非対話的コンテンツをアクセス可能にする言語、視覚的手がかり、警告などのデザイン要素も特定した。 我々は、私たちの発見をデザインガイドラインとして要約し、AI/MLドキュメントに対する人間中心のアプローチにおけるその影響について論じる。

Deep learning models for natural language processing (NLP) are increasingly adopted and deployed by analysts without formal training in NLP or machine learning (ML). However, the documentation intended to convey the model's details and appropriate use is tailored primarily to individuals with ML or NLP expertise. To address this gap, we conduct a design inquiry into interactive model cards, which augment traditionally static model cards with affordances for exploring model documentation and interacting with the models themselves. Our investigation consists of an initial conceptual study with experts in ML, NLP, and AI Ethics, followed by a separate evaluative study with non-expert analysts who use ML models in their work. Using a semi-structured interview format coupled with a think-aloud protocol, we collected feedback from a total of 30 participants who engaged with different versions of standard and interactive model cards. Through a thematic analysis of the collected data, we identified several conceptual dimensions that summarize the strengths and limitations of standard and interactive model cards, including: stakeholders; design; guidance; understandability & interpretability; sensemaking & skepticism; and trust & safety. Our findings demonstrate the importance of carefully considered design and interactivity for orienting and supporting non-expert analysts using deep learning models, along with a need for consideration of broader sociotechnical contexts and organizational dynamics. We have also identified design elements, such as language, visual cues, and warnings, among others, that support interactivity and make non-interactive content accessible. We summarize our findings as design guidelines and discuss their implications for a human-centered approach towards AI/ML documentation.
翻訳日:2022-05-10 00:47:32 公開日:2022-05-05
# (参考訳) 人工心電図を用いた新発症糖尿病の評価 [全文訳有]

New-Onset Diabetes Assessment Using Artificial Intelligence-Enhance d Electrocardiography ( http://arxiv.org/abs/2205.02900v1 )

ライセンス: CC BY-SA 4.0
Neil Jethani, Aahlad Puli, Hao Zhang, Leonid Garber, Lior Jankelson, Yindalon Aphinyanaphongs, and Rajesh Ranganath(参考訳) 糖尿病の成人は21.4%である。 糖尿病は無症候性であり、スクリーニング率の制限のため検出されない。 この問題に対処するため、アメリカ糖尿病協会(ADA)のリスクテストのようなアンケートは、医師や公衆からの使用が推奨されている。 血液グルコース濃度が心電気生理学的に影響を及ぼす証拠に基づいて、人工知能(AI)により強化された心電図(ECG)が、新しい発症糖尿病の成人を識別できると仮定した。 ニューラルネットワークをトレーニングし,12リードのECGと容易に利用可能な人口動態を用いてHbA1cを推定した。 我々は,ペア心電図とHbA1cデータからなるデータセットを振り返って収集した。 心電図とHbA1cの両方を受信した患者の人口は全外来患者のサンプルの偏りがあるため,各患者が重視する重要性を調整し,より代表的な擬似人口を生成する。 その結果、心電図による評価はADAリスクテストよりも優れており、曲線(0.80対0.68)と正の予測値(14%対9%)で、コホート中の糖尿病の頻度の2.6倍である。 AIによって強化されたECGは、心電図の電気生理学的解釈を著しく上回り、現在の臨床能力を超えていることを示唆している。 クリニックやウェアラブルデバイス経由でのECGの普及を考えると、そのようなツールは正確な自動糖尿病評価を広く利用できるようにするだろう。

Undiagnosed diabetes is present in 21.4% of adults with diabetes. Diabetes can remain asymptomatic and undetected due to limitations in screening rates. To address this issue, questionnaires, such as the American Diabetes Association (ADA) Risk test, have been recommended for use by physicians and the public. Based on evidence that blood glucose concentration can affect cardiac electrophysiology, we hypothesized that an artificial intelligence (AI)-enhanced electrocardiogram (ECG) could identify adults with new-onset diabetes. We trained a neural network to estimate HbA1c using a 12-lead ECG and readily available demographics. We retrospectively assembled a dataset comprised of patients with paired ECG and HbA1c data. The population of patients who receive both an ECG and HbA1c may a biased sample of the complete outpatient population, so we adjusted the importance placed on each patient to generate a more representative pseudo-population. We found ECG-based assessment outperforms the ADA Risk test, achieving a higher area under the curve (0.80 vs. 0.68) and positive predictive value (14% vs. 9%) -- 2.6 times the prevalence of diabetes in the cohort. The AI-enhanced ECG significantly outperforms electrophysiologist interpretation of the ECG, suggesting that the task is beyond current clinical capabilities. Given the prevalence of ECGs in clinics and via wearable devices, such a tool would make precise, automated diabetes assessment widely accessible.
翻訳日:2022-05-10 00:12:02 公開日:2022-05-05
# (参考訳) ファウショット分類のための代表サンプルの生成 [全文訳有]

Generating Representative Samples for Few-Shot Classification ( http://arxiv.org/abs/2205.02918v1 )

ライセンス: CC BY 4.0
Jingyi Xu and Hieu Le(参考訳) few-shot learning (fsl) はクラスごとにいくつかのビジュアルサンプルで新しいカテゴリを学ぶことを目的としている。 データ不足によってクラス表現がバイアスを受ける場合が少なくない。 この問題を解決するために,条件付き変分オートエンコーダ(CVAE)モデルを用いてセマンティック埋め込みに基づく視覚サンプルを作成することを提案する。 このCVAEモデルをベースクラスでトレーニングし、新しいクラスの機能を生成するために使用します。 さらに,CVAEモデルのトレーニング時に,ベーストレーニングセットから非表現型サンプルを取り除き,代表サンプルを厳格に生成するように指導する。 本手法により,生成したサンプルの表現性が向上し,少ない分類精度が向上することを示す。 実験結果から,本手法は3つのFSLベースライン法をかなりのマージンで改善し,MiniImageNetとタイレッドImageNetのデータセットを1ショットと5ショットの両方で比較した。 コードはhttps://github.com/c vlab-stonybrook/fsl- rsvaeで入手できる。

Few-shot learning (FSL) aims to learn new categories with a few visual samples per class. Few-shot class representations are often biased due to data scarcity. To mitigate this issue, we propose to generate visual samples based on semantic embeddings using a conditional variational autoencoder (CVAE) model. We train this CVAE model on base classes and use it to generate features for novel classes. More importantly, we guide this VAE to strictly generate representative samples by removing non-representative samples from the base training set when training the CVAE model. We show that this training scheme enhances the representativeness of the generated samples and therefore, improves the few-shot classification results. Experimental results show that our method improves three FSL baseline methods by substantial margins, achieving state-of-the-art few-shot classification performance on miniImageNet and tieredImageNet datasets for both 1-shot and 5-shot settings. Code is available at: https://github.com/c vlab-stonybrook/fsl- rsvae.
翻訳日:2022-05-09 23:52:53 公開日:2022-05-05
# (参考訳) 倫理的意思決定文脈における行動言語に基づく実因果関係 [全文訳有]

Action Languages Based Actual Causality in Ethical Decision Making Contexts ( http://arxiv.org/abs/2205.02919v1 )

ライセンス: CC BY-SA 4.0
Camilo Sarmiento, Gauvain Bourgne, Daniele Cavalli, Katsumi Inoue, Jean-Gabriel Ganascia(参考訳) 道徳的責任は、たとえそれに還元できないとしても、因果関係と密接に混ざり合っている。 さらに、物理的世界の進化を合理的に理解することは因果性の概念と本質的に結びついている。 自動計画に基づく意思決定アプリケーションは、特に倫理的規範への参照を統合する場合、必然的に因果関係に対処している。 これらの考察にもかかわらず、計算倫理の研究の多くは、完全に無視しなければ背景に因果性を委譲する。 この論文の貢献は2倍です。 まず、アクション言語に適した実際の因果定義を提案して、2つの研究トピックを$\unicode{x2014}$automated planningとcausity$\unicode{x2014}$をリンクする。 この定義はライトの因果関係のネステストの形式化である。 2つめは、倫理的推論のシミュレーションにおける因果関係の重要性を示し、ドメインが提案されている実際の因果定義のおかげでそれまで到達できなかった状況に対処することを可能にすることで、計算倫理と因果関係をリンクすることである。

Moral responsibility is closely intermixed with causality, even if it cannot be reduced to it. Besides, rationally understanding the evolution of the physical world is inherently linked with the idea of causality. It follows that decision making applications based on automated planning, especially if they integrate references to ethical norms, have inevitably to deal with causality. Despite these considerations, much of the work in computational ethics relegates causality to the background, if not ignores it completely. This paper contribution is double. The first one is to link up two research topics$\unicode{x2014}$automated planning and causality$\unicode{x2014}$by proposing an actual causation definition suitable for action languages. This definition is a formalisation of Wright's NESS test of causation. The second is to link up computational ethics and causality by showing the importance of causality in the simulation of ethical reasoning and by enabling the domain to deal with situations that were previously out of reach thanks to the actual causation definition proposed.
翻訳日:2022-05-09 23:38:18 公開日:2022-05-05
# (参考訳) ポリット感情対話法を用いた日常対話データの会話分析 [全文訳有]

Conversational Analysis of Daily Dialog Data using Polite Emotional Dialogue Acts ( http://arxiv.org/abs/2205.02921v1 )

ライセンス: CC BY 4.0
Chandrakant Bothe and Stefan Wermter(参考訳) 多くの社会言語学的な手がかりは、感情、感情、対話行動などの会話分析に使われている。 基本的な手がかりの1つは丁寧さであり、会話分析に有用な社会的マナーなどの特性を言語的に有している。 本稿では, 社会的言語学的手がかりの関連を関連づける, 丁寧な情緒的対話行動関連について述べる。 我々は,感情階級の怒りや嫌悪感を伴う発話は不礼である可能性が高いという仮説を確認した。 同時に、幸福と悲しみはより礼儀正しいものになりがちである。 より期待できない現象は、質問や指示よりも丁寧な発話を含むインフォームとコミミティブの対話行為である。 最後に, これらの知見の今後の課題について, 丁寧さによる社会的行動の学習を拡大する。

Many socio-linguistic cues are used in conversational analysis, such as emotion, sentiment, and dialogue acts. One of the fundamental cues is politeness, which linguistically possesses properties such as social manners useful in conversational analysis. This article presents findings of polite emotional dialogue act associations, where we can correlate the relationships between the socio-linguistic cues. We confirm our hypothesis that the utterances with the emotion classes Anger and Disgust are more likely to be impolite. At the same time, Happiness and Sadness are more likely to be polite. A less expectable phenomenon occurs with dialogue acts Inform and Commissive which contain more polite utterances than Question and Directive. Finally, we conclude on the future work of these findings to extend the learning of social behaviours using politeness.
翻訳日:2022-05-09 23:06:45 公開日:2022-05-05
# (参考訳) Fisheye Distill: 魚眼カメラの常用蒸留による自己監督単眼深度推定 [全文訳有]

FisheyeDistill: Self-Supervised Monocular Depth Estimation with Ordinal Distillation for Fisheye Cameras ( http://arxiv.org/abs/2205.02930v1 )

ライセンス: CC BY 4.0
Qingan Yan, Pan Ji, Nitin Bansal, Yuxin Ma, Yuan Tian, Yi Xu(参考訳) 本稿では,魚眼カメラの単眼深度推定の問題を自己監視的に扱う。 自己監督深度推定の既知の問題は、低照度/オーバー露光条件や大きな均質領域で苦しむことである。 この問題に対処するために,大規模教師モデルから順序情報を蒸留する新規な順序蒸留損失を提案する。 このような教師モデルは、多種多様なデータで訓練されているため、奥行き順の情報をよく捉えることができるが、正確な風景形状を保存できない。 自己監督的損失と組み合わせることで, 課題のある環境において, 適切な深度マップを生成できるだけでなく, シーン形状を復元できることを示す。 さらに,ar-glasses装置の魚眼カメラを利用して室内データセットを収集し,評価を容易にする。

In this paper, we deal with the problem of monocular depth estimation for fisheye cameras in a self-supervised manner. A known issue of self-supervised depth estimation is that it suffers in low-light/over-expos ure conditions and in large homogeneous regions. To tackle this issue, we propose a novel ordinal distillation loss that distills the ordinal information from a large teacher model. Such a teacher model, since having been trained on a large amount of diverse data, can capture the depth ordering information well, but lacks in preserving accurate scene geometry. Combined with self-supervised losses, we show that our model can not only generate reasonable depth maps in challenging environments but also better recover the scene geometry. We further leverage the fisheye cameras of an AR-Glasses device to collect an indoor dataset to facilitate evaluation.
翻訳日:2022-05-09 22:58:07 公開日:2022-05-05
# (参考訳) 平面制約付きCNN拡張ビジュアル慣性SLAM [全文訳有]

CNN-Augmented Visual-Inertial SLAM with Planar Constraints ( http://arxiv.org/abs/2205.02940v1 )

ライセンス: CC BY 4.0
Pan Ji, Yuan Tian, Qingan Yan, Yuxin Ma, and Yi Xu(参考訳) 本稿では,畳み込みニューラルネットワーク(CNN)と平面制約を組み合わせた,堅牢なビジュアル慣性SLAMシステムを提案する。 本システムは,CNNを用いて各画像の深度マップと対応する不確実性マップを予測する。 CNNの深さはSLAMのバックエンド最適化を効果的にブートストラップし、一方CNNの不確実性は各特徴点のバックエンド最適化への寄与を適応的に重み付けする。 さらに、慣性センサからの重力方向を考慮し、一点RANSACおよび二点RANSACを介して水平面を検出する高速平面検出法を提案する。 これらの安定に検出された平面は、SLAMのバックエンド最適化の規則化に使用される。 提案システムは,公開データセットである \ie, EuRoC を用いて評価し, 最先端SLAMシステムである \ie, ORB-SLAM3 に対して改良された結果を示す。

We present a robust visual-inertial SLAM system that combines the benefits of Convolutional Neural Networks (CNNs) and planar constraints. Our system leverages a CNN to predict the depth map and the corresponding uncertainty map for each image. The CNN depth effectively bootstraps the back-end optimization of SLAM and meanwhile the CNN uncertainty adaptively weighs the contribution of each feature point to the back-end optimization. Given the gravity direction from the inertial sensor, we further present a fast plane detection method that detects horizontal planes via one-point RANSAC and vertical planes via two-point RANSAC. Those stably detected planes are in turn used to regularize the back-end optimization of SLAM. We evaluate our system on a public dataset, \ie, EuRoC, and demonstrate improved results over a state-of-the-art SLAM system, \ie, ORB-SLAM3.
翻訳日:2022-05-09 22:45:28 公開日:2022-05-05
# (参考訳) ビザンチン攻撃によるオーバーザ・エアフェデレート学習 [全文訳有]

Over-The-Air Federated Learning under Byzantine Attacks ( http://arxiv.org/abs/2205.02949v1 )

ライセンス: CC BY 4.0
Houssem Sifaou and Geoffrey Ye Li(参考訳) フェデレートラーニング(FL)は、グローバルモデルを協調的にトレーニングするために、分散クライアントからのセンシティブなデータセットが必要な、多くのAIアプリケーションを実現するための有望なソリューションである。 FLは、クライアントがローカルデータを共有せずに、中央サーバが管理するトレーニングフェーズに参加することを可能にする。 flの主な課題のひとつはコミュニケーションのオーバーヘッドであり、参加するクライアントのモデル更新は、グローバルトレーニングラウンド毎に中央サーバに送信される。 モデル更新がマルチアクセスチャネル上で同時に送信される通信ボトルネックを軽減するために、aircomp(over-the-air computation)が最近提案されている。 しかし、aircompによるモデル更新の単純な平均化は、いくつかのビザンチンクライアントのローカルモデル更新のランダムまたは意図的な修正に対して、学習プロセスを脆弱にする。 本稿では,FL 用 AirComp の利点を保ちながら,このような攻撃の効果を低減するための送信・集約フレームワークを提案する。 提案するロバストなアプローチでは、中央サーバは参加者のクライアントをランダムにグループに分け、各グループに送信時間スロットを割り当てる。 異なるグループの更新は、ロバストな集約技術を用いて集約される。 我々は、ロバストアグリゲーションの前に再サンプリングステップを追加する非i.d.ローカルデータを扱うために、我々のアプローチを拡張した。 i.i.d.データと非i.i.d.データの両方における提案手法の収束を解析し,提案アルゴリズムが最適解近傍の線形速度で収束することを示す。 提案手法の堅牢性を確認するために,実データセットの実験を行った。

Federated learning (FL) is a promising solution to enable many AI applications, where sensitive datasets from distributed clients are needed for collaboratively training a global model. FL allows the clients to participate in the training phase, governed by a central server, without sharing their local data. One of the main challenges of FL is the communication overhead, where the model updates of the participating clients are sent to the central server at each global training round. Over-the-air computation (AirComp) has been recently proposed to alleviate the communication bottleneck where the model updates are sent simultaneously over the multiple-access channel. However, simple averaging of the model updates via AirComp makes the learning process vulnerable to random or intended modifications of the local model updates of some Byzantine clients. In this paper, we propose a transmission and aggregation framework to reduce the effect of such attacks while preserving the benefits of AirComp for FL. For the proposed robust approach, the central server divides the participating clients randomly into groups and allocates a transmission time slot for each group. The updates of the different groups are then aggregated using a robust aggregation technique. We extend our approach to handle the case of non-i.i.d. local data, where a resampling step is added before robust aggregation. We analyze the convergence of the proposed approach for both cases of i.i.d. and non-i.i.d. data and demonstrate that the proposed algorithm converges at a linear rate to a neighborhood of the optimal solution. Experiments on real datasets are provided to confirm the robustness of the proposed approach.
翻訳日:2022-05-09 22:35:30 公開日:2022-05-05
# 収束する勾配流としてのGAN

GANs as Gradient Flows that Converge ( http://arxiv.org/abs/2205.02910v1 )

ライセンス: Link先を確認
Yu-Jui Huang, Yuchong Zhang(参考訳) 本稿では,確率密度関数の空間における勾配降下による教師なし学習問題にアプローチする。 その結果,分布依存常微分方程式 (ode) によって引き起こされる勾配流に沿って, この密度の流れの長期的限界として未知のデータ分布が現れる。 つまり、分散依存odeをシミュレートすることで、データ分布を明らかにすることができる。 興味深いことに、ODEのシミュレーションはGAN(Generative Adversarial Network)のトレーニングと等価である。 したがって、ganフレームワークは、ジェネレータと判別器の間の非協力的なゲームを定義することにより、ナビゲータと校正器の間の協調的なゲームとして(odeをシミュレートするために協調的に)見なすことができる。 理論レベルでは、この新しい視点は、GANの分析を単純化し、そのパフォーマンスに関する新たな洞察を与える。 分布依存ODEの解を構築するために、バナッハ空間の微分方程式に対するクランドール・リゲットの定理を用いて、関連する非線形フォッカー・プランク方程式がユニークな弱解を持つことを示す。 この解からフォッカー・プランク方程式まで、トレビサンの重ね合わせの原理を頼りにODEのユニークな解を構築する。 フォッカー・プランク方程式を解析し、データ分布への誘導勾配流れの収束を求める。

This paper approaches the unsupervised learning problem by gradient descent in the space of probability density functions. Our main result shows that along the gradient flow induced by a distribution-depende nt ordinary differential equation (ODE), the unknown data distribution emerges as the long-time limit of this flow of densities. That is, one can uncover the data distribution by simulating the distribution-depende nt ODE. Intriguingly, we find that the simulation of the ODE is equivalent to the training of generative adversarial networks (GANs). The GAN framework, by definition a non-cooperative game between a generator and a discriminator, can therefore be viewed alternatively as a cooperative game between a navigator and a calibrator (in collaboration to simulate the ODE). At the theoretic level, this new perspective simplifies the analysis of GANs and gives new insight into their performance. To construct a solution to the distribution-depende nt ODE, we first show that the associated nonlinear Fokker-Planck equation has a unique weak solution, using the Crandall-Liggett theorem for differential equations in Banach spaces. From this solution to the Fokker-Planck equation, we construct a unique solution to the ODE, relying on Trevisan's superposition principle. The convergence of the induced gradient flow to the data distribution is obtained by analyzing the Fokker-Planck equation.
翻訳日:2022-05-09 14:28:48 公開日:2022-05-05
# 普遍幾何学学習のための低次元不変埋め込み

Low Dimensional Invariant Embeddings for Universal Geometric Learning ( http://arxiv.org/abs/2205.02956v1 )

ライセンス: Link先を確認
Nadav Dym and Steven J. Gortler(参考訳) 本稿では、半代数群作用と分離軌道に不変な$D$次元ユークリッド領域の$d$次元半代数部分集合上の写像について研究する。 この研究の動機は、同変ニューラルネットワークアーキテクチャの普遍性を証明するために不変量を分離することの有用性にある。 いくつかの場合において、機械学習文学において提案される不変量分離の基数は、周囲次元$D$よりもはるかに大きいことが観察される。 その結果、これらの分離不変量に基づく理論的普遍構造は非現実的に大きい。 この論文の目標はこの問題を解決することです。 半代数的分離不変量の連続族が利用できるとき、これらの不変量の2d+1$をランダムに選択することで分離が得られることを示す。 この手法を適用し、不変学習文献で研究されているいくつかの古典的群行動に対する不変量分離の効率的なスキームを得る。 例えば、点雲上の行列乗算作用は、置換、回転、その他の様々な線型群によるものである。

This paper studies separating invariants: mappings on $d$-dimensional semi-algebraic subsets of $D$ dimensional Euclidean domains which are invariant to semi-algebraic group actions and separate orbits. The motivation for this study comes from the usefulness of separating invariants in proving universality of equivariant neural network architectures. We observe that in several cases the cardinality of separating invariants proposed in the machine learning literature is much larger than the ambient dimension $D$. As a result, the theoretical universal constructions based on these separating invariants is unrealistically large. Our goal in this paper is to resolve this issue. We show that when a continuous family of semi-algebraic separating invariants is available, separation can be obtained by randomly selecting $2d+1 $ of these invariants. We apply this methodology to obtain an efficient scheme for computing separating invariants for several classical group actions which have been studied in the invariant learning literature. Examples include matrix multiplication actions on point clouds by permutations, rotations, and various other linear groups.
翻訳日:2022-05-09 14:28:26 公開日:2022-05-05
# 衝突を考慮した3次元メッシュの近似凸分解と木探索

Approximate Convex Decomposition for 3D Meshes with Collision-Aware Concavity and Tree Search ( http://arxiv.org/abs/2205.02961v1 )

ライセンス: Link先を確認
Xinyue Wei, Minghua Liu, Zhan Ling, Hao Su(参考訳) 近似凸分解(英: Approximate convex decomposition)は、3次元形状をほぼ凸成分の集合に分解することを目的としており、その凸殻は入力形状を表すために用いられる。 これにより、凸形状専用に設計された効率的な幾何学処理アルゴリズムが実現され、ゲームエンジン、物理シミュレーション、アニメーションで広く使われている。 以前の作業は入力形状の全体構造をキャプチャするが、細かな詳細(例えばトースターのスロットを満たすなど)の保存に失敗し、インタラクティブな環境でオブジェクトの機能を維持する上で重要である。 本稿では,既存のアプローチの限界を3つの視点から解決する新しい手法を提案する。 a) 境界と内部の両方から形状と凸殻との間の距離を調べる新しい衝突対応凹凸計量を導入する。 提案した凹部は衝突条件を保ち、様々な近似誤差を検出するためにより堅牢である。 b) 3次元平面でメッシュを直接切断することで形状を分解する。 生成された凸船体が交叉のないことを保証し、酸化エラーを避ける。 c) 一段階のグリーディ戦略を用いる代わりに,多段階木探索を用いて切削面を判定し,グローバルにより良い解を導き,不要な切削を回避できる手法を提案する。 大規模オブジェクトデータセットの大規模な評価を通じて,本手法が元の形状に近い分解を少ない成分で生成することを示す。 これにより、下流アプリケーションにおける繊細で効率的なオブジェクトインタラクションをサポートする。 今後の研究を促進するための実装をリリースする。

Approximate convex decomposition aims to decompose a 3D shape into a set of almost convex components, whose convex hulls can then be used to represent the input shape. It thus enables efficient geometry processing algorithms specifically designed for convex shapes and has been widely used in game engines, physics simulations, and animation. While prior works can capture the global structure of input shapes, they may fail to preserve fine-grained details (e.g., filling a toaster's slots), which are critical for retaining the functionality of objects in interactive environments. In this paper, we propose a novel method that addresses the limitations of existing approaches from three perspectives: (a) We introduce a novel collision-aware concavity metric that examines the distance between a shape and its convex hull from both the boundary and the interior. The proposed concavity preserves collision conditions and is more robust to detect various approximation errors. (b) We decompose shapes by directly cutting meshes with 3D planes. It ensures generated convex hulls are intersection-free and avoids voxelization errors. (c) Instead of using a one-step greedy strategy, we propose employing a multi-step tree search to determine the cutting planes, which leads to a globally better solution and avoids unnecessary cuttings. Through extensive evaluation on a large-scale articulated object dataset, we show that our method generates decompositions closer to the original shape with fewer components. It thus supports delicate and efficient object interaction in downstream applications. We will release our implementation to facilitate future research.
翻訳日:2022-05-09 14:24:06 公開日:2022-05-05
# 既知の遷移金属錯体配位子のマルチリファレンスキャラクタの転写可能な機械学習への配位子付加性の利用

Exploiting Ligand Additivity for Transferable Machine Learning of Multireference Character Across Known Transition Metal Complex Ligands ( http://arxiv.org/abs/2205.02879v1 )

ライセンス: Link先を確認
Chenru Duan, Adriana J. Ladera, Julian C.-L. Liu, Michael G. Taylor, Isuru R. Ariyarathna, and Heather J. Kulik(参考訳) 遷移金属錯体(TMC)の正確な仮想高スループットスクリーニング(VHTS)は、特性評価を複雑にする高多重参照(MR)キャラクタリゼーションの可能性のため、依然として困難である。 ケンブリッジ構造データベース (csd) で合成された遷移金属錯体に存在する5,000以上の配位子に対するmr診断を計算する。 そこで本研究では,CSDにおけるリガンドに対する一貫したリガンド電荷割り当てに対する反復的アプローチを提案する。 この集合全体で、MRキャラクタは分子内のすべての結合に対する平均結合位の平均の逆値と線形に相関する。 次に, MRキャラクタのリガンド付加性はTMCに存在し, MRキャラクタはリガンドのMRキャラクタの和から推定可能であることを示す。 この観察により、我々はリガンド付加性を活用し、リガンド由来の機械学習表現を開発し、ニューラルネットワークを訓練し、構成リガンドの特性からMCCのMR特性を予測する。 このアプローチは、優れた性能と優れた配位子化学および組成への転移性を持つモデルをもたらす。

Accurate virtual high-throughput screening (VHTS) of transition metal complexes (TMCs) remains challenging due to the possibility of high multi-reference (MR) character that complicates property evaluation. We compute MR diagnostics for over 5,000 ligands present in previously synthesized transition metal complexes in the Cambridge Structural Database (CSD). To accomplish this task, we introduce an iterative approach for consistent ligand charge assignment for ligands in the CSD. Across this set, we observe that MR character correlates linearly with the inverse value of the averaged bond order over all bonds in the molecule. We then demonstrate that ligand additivity of MR character holds in TMCs, which suggests that the TMC MR character can be inferred from the sum of the MR character of the ligands. Encouraged by this observation, we leverage ligand additivity and develop a ligand-derived machine learning representation to train neural networks to predict the MR character of TMCs from properties of the constituent ligands. This approach yields models with excellent performance and superior transferability to unseen ligand chemistry and compositions.
翻訳日:2022-05-09 14:23:42 公開日:2022-05-05
# GreenDB: 製品ごとのサステナビリティデータベースを目指して

GreenDB: Toward a Product-by-Product Sustainability Database ( http://arxiv.org/abs/2205.02908v1 )

ライセンス: Link先を確認
Sebastian J\"ager, Jessica Greene, Max Jakob, Ruben Korenke, Tilman Santarius, Felix Biessmann(参考訳) 消費財の生産、出荷、利用、廃棄は温室効果ガスの排出と資源の枯渇に大きな影響を与える。 現代の小売プラットフォームは、検索とレコメンデーションシステムに機械学習(ML)に大きく依存している。 このようにMLは、例えば製品検索やレコメンデーションにおける持続可能性の観点から、より持続可能な消費パターンへの取り組みを支援することができる。 しかし、サステナビリティ目標を達成するためにMLの可能性を活用するには、サステナビリティに関するデータが必要である。 残念ながら、製品ごとにサステナビリティ情報を統合できるデータベースは、公開されていない。 この作業では、このギャップを埋めるGreenDBを紹介します。 何百万というユーザの検索ログに基づいて、ユーザが最も関心を持つプロダクトを優先します。 greendbスキーマは、よく知られたschema.org製品定義を拡張し、既存の製品カタログに簡単に統合でき、検索およびレコメンデーション体験で利用可能なサステナビリティ情報を改善することができる。 本稿では,グリーンDBデータセットを生成するスクラップシステムの概念実証を行う。

The production, shipping, usage, and disposal of consumer goods have a substantial impact on greenhouse gas emissions and the depletion of resources. Modern retail platforms rely heavily on Machine Learning (ML) for their search and recommender systems. Thus, ML can potentially support efforts towards more sustainable consumption patterns, for example, by accounting for sustainability aspects in product search or recommendations. However, leveraging ML potential for reaching sustainability goals requires data on sustainability. Unfortunately, no open and publicly available database integrates sustainability information on a product-by-product basis. In this work, we present the GreenDB, which fills this gap. Based on search logs of millions of users, we prioritize which products users care about most. The GreenDB schema extends the well-known schema.org Product definition and can be readily integrated into existing product catalogs to improve sustainability information available for search and recommendation experiences. We present our proof of concept implementation of a scraping system that creates the GreenDB dataset.
翻訳日:2022-05-09 13:58:32 公開日:2022-05-05
# 深部ベイズバンドによる抗がん治療 : 機能的優先による探索

A Deep Bayesian Bandits Approach for Anticancer Therapy: Exploration via Functional Prior ( http://arxiv.org/abs/2205.02944v1 )

ライセンス: Link先を確認
Mingyu Lu and Yifang Chen and Su-In Lee(参考訳) 機械学習を用いてパーソナライズされたがん治療を学習することは、がん患者の生存可能性を改善するための大きな約束である。 近年の機械学習と精度オンコロジーの進歩にもかかわらず、複数の治療効果をモデル化するための前臨床・臨床研究のデータ収集は高価で時間を要することが多いため、このアプローチは依然として困難である。 また, 治療割り当てのランダム化は, 被験者/サンプルが試験中最も適切な治療を受けていないため, 副最適であることが証明された。 この課題に対処するために,がん細胞株に関する文脈情報に基づいて抗がん剤をアルゴリズムが選択し,その治療戦略を適応させ,治療反応を「オンライン」形式で最大化する「コンテキスト的バンディット」問題として薬物スクリーニング研究を定式化する。 本稿では,ゲノム特徴と薬物構造からなるマルチモーダル情報に基づく薬物応答予測の近似後段として機能する,新しい深ベイズバンドイットフレームワークを提案する。 本手法は,3つの大規模in vitro薬理ゲノミクスデータセットを用いて実験的に評価し,特定の細胞株に対する最適な治療法を同定する上で,いくつかのベンチマークよりも優れることを示す。

Learning personalized cancer treatment with machine learning holds great promise to improve cancer patients' chance of survival. Despite recent advances in machine learning and precision oncology, this approach remains challenging as collecting data in preclinical/clinical studies for modeling multiple treatment efficacies is often an expensive, time-consuming process. Moreover, the randomization in treatment allocation proves to be suboptimal since some participants/samples are not receiving the most appropriate treatments during the trial. To address this challenge, we formulate drug screening study as a "contextual bandit" problem, in which an algorithm selects anticancer therapeutics based on contextual information about cancer cell lines while adapting its treatment strategy to maximize treatment response in an "online" fashion. We propose using a novel deep Bayesian bandits framework that uses functional prior to approximate posterior for drug response prediction based on multi-modal information consisting of genomic features and drug structure. We empirically evaluate our method on three large-scale in vitro pharmacogenomic datasets and show that our approach outperforms several benchmarks in identifying optimal treatment for a given cell line.
翻訳日:2022-05-09 13:58:18 公開日:2022-05-05
# メタバーサル学習環境:対人効果の測定・予測・改善

Metaversal Learning Environments: Measuring, predicting and improving interpersonal effectiveness ( http://arxiv.org/abs/2205.02875v1 )

ライセンス: Link先を確認
Arjun Nagendran, Scott Compton, William Follette, Artem Golenchenko, Anna Compton, Jonathan Grizou(参考訳) 経験的学習は、個人的および専門的な発達にとって魅力的で効果的なモダリティであることが知られている。 メタバースはそのような経験的な学習ができる環境を作るための十分な機会を提供する。 本研究では,人工知能と仮想現実を組み合わせて,アバターを用いた没入的かつ効率的な学習体験を実現する新しいアーキテクチャを提案する。 このフレームワークは、アバターと相互作用する個人の対人効果を測定することができる。 まず,この枠組みの強化に用いたパイロット実験を行い,その成果について述べる。 次に、アバターと相互作用する個人の対人効果を測定し、評価し、予測するための強化された枠組みを用いたより大きな研究を提案する。 その結果, 対人効果に欠ける個人は, アバターとの相互作用が複数あった後, パフォーマンスが著しく向上したことが明らかとなった。 結果はまた、個人がこの枠組み内でアバターと自然に相互作用し、現実世界と同じような行動特性を示すことも明らかにしている。 私たちは、これらのインタラクションの間、個人のオーディオおよびビデオデータストリームを分析するために、これを基礎として使用します。 最後に,これらのデータから関連する特徴を抽出し,人間とアバタの会話における対人効果を予測するための機械学習手法を提案する。 実世界の有益なアプリケーションを構築するために,これらの発見がもたらす意味について論じる。

Experiential learning has been known to be an engaging and effective modality for personal and professional development. The Metaverse provides ample opportunities for the creation of environments in which such experiential learning can occur. In this work, we introduce a novel architecture that combines Artificial intelligence and Virtual Reality to create a highly immersive and efficient learning experience using avatars. The framework allows us to measure the interpersonal effectiveness of an individual interacting with the avatar. We first present a small pilot study and its results which were used to enhance the framework. We then present a larger study using the enhanced framework to measure, assess, and predict the interpersonal effectiveness of individuals interacting with an avatar. Results reveal that individuals with deficits in their interpersonal effectiveness show a significant improvement in performance after multiple interactions with an avatar. The results also reveal that individuals interact naturally with avatars within this framework, and exhibit similar behavioral traits as they would in the real world. We use this as a basis to analyze the underlying audio and video data streams of individuals during these interactions. Finally, we extract relevant features from these data and present a machine-learning based approach to predict interpersonal effectiveness during human-avatar conversation. We conclude by discussing the implications of these findings to build beneficial applications for the real world.
翻訳日:2022-05-09 13:54:59 公開日:2022-05-05
# RoboCraft: グラフネットワークによるエラストプラスティックオブジェクトの閲覧、シミュレート、形状の学習

RoboCraft: Learning to See, Simulate, and Shape Elasto-Plastic Objects with Graph Networks ( http://arxiv.org/abs/2205.02909v1 )

ライセンス: Link先を確認
Haochen Shi, Huazhe Xu, Zhiao Huang, Yunzhu Li, Jiajun Wu(参考訳) エラスト塑性物体のモデリングと操作は、ロボットが複雑な産業と家庭の相互作用(ダンプリングの詰め込み、寿司の転がり、陶器を作るなど)を行う上で不可欠な機能である。 しかしながら、弾塑性物体の高度な自由のため、ロボット操作パイプラインの事実上のあらゆる面において、例えば状態の表現、ダイナミクスのモデリング、制御信号の合成といった重要な課題が存在する。 モデルベース計画フレームワークにおける弾塑性物体の粒子表現を用いて,これらの課題に対処することを提案する。 我々のシステムであるRoboCraftは、生のRGBD視覚観測のみを前提としている。 センシングデータを粒子に変換し、グラフニューラルネットワーク(GNN)を用いて粒子ベースのダイナミクスモデルを学び、基礎となるシステムの構造を捉える。 学習したモデルはモデル予測制御(MPC)アルゴリズムと結合してロボットの動作を計画することができる。 実世界のロボットインタラクションデータの10分で、ロボットは制御信号を合成して弾力性のある物体を様々なターゲット形状に変形させるダイナミクスモデルを学習できることを実験で示します。 シミュレーションと実世界の両方で体系的な評価を行い,ロボットの操作能力と,より複雑なアクション空間,異なるツール形状,動きモードの混合に一般化する能力を示す。 また,ロボットクラフトと握手を制御する非訓練人体の比較を行い,シミュレーションと実世界の両方で変形可能な物体を操作する。 学習したモデルベースの計画フレームワークは、テストされたタスクの被験者に匹敵し、時には人間よりも優れています。

Modeling and manipulating elasto-plastic objects are essential capabilities for robots to perform complex industrial and household interaction tasks (e.g., stuffing dumplings, rolling sushi, and making pottery). However, due to the high degree of freedom of elasto-plastic objects, significant challenges exist in virtually every aspect of the robotic manipulation pipeline, e.g., representing the states, modeling the dynamics, and synthesizing the control signals. We propose to tackle these challenges by employing a particle-based representation for elasto-plastic objects in a model-based planning framework. Our system, RoboCraft, only assumes access to raw RGBD visual observations. It transforms the sensing data into particles and learns a particle-based dynamics model using graph neural networks (GNNs) to capture the structure of the underlying system. The learned model can then be coupled with model-predictive control (MPC) algorithms to plan the robot's behavior. We show through experiments that with just 10 minutes of real-world robotic interaction data, our robot can learn a dynamics model that can be used to synthesize control signals to deform elasto-plastic objects into various target shapes, including shapes that the robot has never encountered before. We perform systematic evaluations in both simulation and the real world to demonstrate the robot's manipulation capabilities and ability to generalize to a more complex action space, different tool shapes, and a mixture of motion modes. We also conduct comparisons between RoboCraft and untrained human subjects controlling the gripper to manipulate deformable objects in both simulation and the real world. Our learned model-based planning framework is comparable to and sometimes better than human subjects on the tested tasks.
翻訳日:2022-05-09 13:54:40 公開日:2022-05-05
# invnorm:消化器内視鏡における物体検出領域の一般化

InvNorm: Domain Generalization for Object Detection in Gastrointestinal Endoscopy ( http://arxiv.org/abs/2205.02842v1 )

ライセンス: Link先を確認
Weichen Fan, Yuanbo Yang, Kunpeng Qiu, Shuo Wang, and Yongxin Guo(参考訳) ドメインの一般化はコンピュータビジョン、特に消化器内視鏡画像解析において難しい話題である。 いくつかのデバイス制限と倫理的理由により、現在のオープンソースデータセットは、通常、同じ種類のセンサーを使用する少数の患者で収集される。 デバイスブランドの違いと個人差は、モデルの汎用性に大きく影響します。 そこで,GI(Gastrointestinal )内視鏡における一般化問題に対処するために,多領域GIデータセットと,InvNorm(Invertible Normalization)と呼ばれる軽量プラグインブロックを提案する。 以前のDG(Domain Generalization)法は可逆変換を達成できないため、いくつかの誤解を招く。 さらに、これらのモデルは医療倫理問題につながる可能性が高い。 本手法では, フローの正規化を利用して可逆的かつ説明可能なスタイル正規化を行い, この問題に対処する。 InvNormの有効性は、GI認識、GIオブジェクト検出、自然画像認識など、幅広いタスクで実証されている。

Domain Generalization is a challenging topic in computer vision, especially in Gastrointestinal Endoscopy image analysis. Due to several device limitations and ethical reasons, current open-source datasets are typically collected on a limited number of patients using the same brand of sensors. Different brands of devices and individual differences will significantly affect the model's generalizability. Therefore, to address the generalization problem in GI(Gastrointestinal) endoscopy, we propose a multi-domain GI dataset and a light, plug-in block called InvNorm(Invertible Normalization), which could achieve a better generalization performance in any structure. Previous DG(Domain Generalization) methods fail to achieve invertible transformation, which would lead to some misleading augmentation. Moreover, these models would be more likely to lead to medical ethics issues. Our method utilizes normalizing flow to achieve invertible and explainable style normalization to address the problem. The effectiveness of InvNorm is demonstrated on a wide range of tasks, including GI recognition, GI object detection, and natural image recognition.
翻訳日:2022-05-09 13:52:09 公開日:2022-05-05
# 医用画像セグメンテーションの領域一般化のための不変コンテンツシナジスティック学習

Invariant Content Synergistic Learning for Domain Generalization of Medical Image Segmentation ( http://arxiv.org/abs/2205.02845v1 )

ライセンス: Link先を確認
Yuxin Kang, Hansheng Li, Xuan Zhao, Dongqing Hu, Feihong Liu, Lei Cui, Jun Feng and Lin Yang(参考訳) 深層畳み込みニューラルネットワーク(dcnn)は、医用画像のセグメンテーションで目覚ましい成功を収める一方で、新しい分布でテストデータと向き合う場合、頑健性を維持することができないことが多い。 このような欠点に対処するため、DCNNの帰納バイアスは近年よく認識されている。 具体的には、DCNNは不変コンテンツ(例えばオブジェクトの形状)よりもイメージスタイル(例えば表面テクスチャ)への誘導バイアスを示す。 本稿では,インダクティブバイアスを制御することによって,未知のデータセット上でのDCNNの一般化能力を向上させる手法として,ICSL(Invariant Content Synergistic Learning)を提案する。 まず、ICSLはトレーニングインスタンスのスタイルを混ぜ合わせてトレーニングディストリビューションを混乱させる。 つまり、より多様なドメインやスタイルがDCNNのトレーニングに利用できるようになるということだ。 摂動分布に基づいて, スタイルバイアス予測を防止し, より不変コンテンツに焦点を合わせるために, 二重分岐不変コンテンツ相乗学習戦略を慎重に設計する。 2つの典型的な医用画像分割タスクの広範な実験結果から,本手法は最先端のドメイン一般化法よりも優れた性能を示す。

While achieving remarkable success for medical image segmentation, deep convolution neural networks (DCNNs) often fail to maintain their robustness when confronting test data with the novel distribution. To address such a drawback, the inductive bias of DCNNs is recently well-recognized. Specifically, DCNNs exhibit an inductive bias towards image style (e.g., superficial texture) rather than invariant content (e.g., object shapes). In this paper, we propose a method, named Invariant Content Synergistic Learning (ICSL), to improve the generalization ability of DCNNs on unseen datasets by controlling the inductive bias. First, ICSL mixes the style of training instances to perturb the training distribution. That is to say, more diverse domains or styles would be made available for training DCNNs. Based on the perturbed distribution, we carefully design a dual-branches invariant content synergistic learning strategy to prevent style-biased predictions and focus more on the invariant content. Extensive experimental results on two typical medical image segmentation tasks show that our approach performs better than state-of-the-art domain generalization methods.
翻訳日:2022-05-09 13:51:53 公開日:2022-05-05
# エンドツーエンド画像ベースファッションレコメンデーション

End-to-End Image-Based Fashion Recommendation ( http://arxiv.org/abs/2205.02923v1 )

ライセンス: Link先を確認
Shereen Elsayed, Lukas Brinkmeyer and Lars Schmidt-Thieme(参考訳) ファッションベースのレコメンデーション設定では、アイテムイメージの機能を組み込むことが重要な要素と考えられており、行列の分解やオートエンコーダ、近隣のモデルに限らず、多くの伝統的なモデルに大幅に改善されている。 専用ディープニューラルネットワークを利用するイメージベースのレコメンダアプローチは数多く存在するが、属性認識モデルとの比較は、アイテムの画像機能を活用するために簡単に拡張できるにもかかわらず、しばしば無視される。 本稿では,アイテムレコメンデーションタスクにおいて,より優れた項目表現学習を実現するための画像特徴を組み込んだ,単純かつ効果的な属性認識モデルを提案する。 提案モデルは,キャリブレーションされたresnet50コンポーネントによって抽出されたアイテムのイメージ特徴を利用する。 本稿では,3つの異なる手法を用いた画像特徴を,利用可能なアイテムの属性をシームレスに活用できるレコメンデータシステムコンポーネントに組み込むことを比較検討する。 2つの画像ベースの実世界のレコメンダシステムに関する実験では、提案されたモデルが最先端の画像ベースモデルを大きく上回っていることが示されている。

In fashion-based recommendation settings, incorporating the item image features is considered a crucial factor, and it has shown significant improvements to many traditional models, including but not limited to matrix factorization, auto-encoders, and nearest neighbor models. While there are numerous image-based recommender approaches that utilize dedicated deep neural networks, comparisons to attribute-aware models are often disregarded despite their ability to be easily extended to leverage items' image features. In this paper, we propose a simple yet effective attribute-aware model that incorporates image features for better item representation learning in item recommendation tasks. The proposed model utilizes items' image features extracted by a calibrated ResNet50 component. We present an ablation study to compare incorporating the image features using three different techniques into the recommender system component that can seamlessly leverage any available items' attributes. Experiments on two image-based real-world recommender systems datasets show that the proposed model significantly outperforms all state-of-the-art image-based models.
翻訳日:2022-05-09 13:28:10 公開日:2022-05-05
# セマンティクス誘導画像アウトパインティングのためのシーングラフ拡張

Scene Graph Expansion for Semantics-Guided Image Outpainting ( http://arxiv.org/abs/2205.02958v1 )

ライセンス: Link先を確認
Chiao-An Yang, Cheng-Yo Tan, Wan-Cyuan Fan, Cheng-Fu Yang, Meng-Lin Wu, Yu-Chiang Frank Wang(参考訳) 本稿では,意味論的に実践的なコンテンツを生成して画像を完成させることを目的としたセマンティックス誘導画像のアウトパインティングの課題に対処する。 既存の画像出力処理と異なり,シーングラフレベルでのイメージセマンティクスの理解と完成により,上記の課題にアプローチする。 特にSGT(Scene Graph Transformer)の新たなネットワークを提案する。これはノードとエッジの特徴を関連する構造情報をモデル化するための入力として扱うように設計されている。 グラフベースの入力をよりよく理解し、処理するために、SGTはノードレベルとエッジレベルの両方で特徴的注意を独自に実行します。 前者はエッジを関係正規化と見なすが、後者は注意プロセスを導くためにノードの共起を観察する。 レイアウトとシーングラフを持つ部分的な入力画像を考えると,SGTはシーングラフの拡張と完全なレイアウトへの変換に応用できることを示す。 最先端のレイアウトからイメージへの変換が機能すると、イメージを塗り替える作業は、十分な実用的セマンティクスで完了する。 提案手法の有効性を定量的に定量的に検証し,MS-COCOとVisual Genomeのデータセットを用いて実験を行った。

In this paper, we address the task of semantics-guided image outpainting, which is to complete an image by generating semantically practical content. Different from most existing image outpainting works, we approach the above task by understanding and completing image semantics at the scene graph level. In particular, we propose a novel network of Scene Graph Transformer (SGT), which is designed to take node and edge features as inputs for modeling the associated structural information. To better understand and process graph-based inputs, our SGT uniquely performs feature attention at both node and edge levels. While the former views edges as relationship regularization, the latter observes the co-occurrence of nodes for guiding the attention process. We demonstrate that, given a partial input image with its layout and scene graph, our SGT can be applied for scene graph expansion and its conversion to a complete layout. Following state-of-the-art layout-to-image conversions works, the task of image outpainting can be completed with sufficient and practical semantics introduced. Extensive experiments are conducted on the datasets of MS-COCO and Visual Genome, which quantitatively and qualitatively confirm the effectiveness of our proposed SGT and outpainting frameworks.
翻訳日:2022-05-09 13:26:12 公開日:2022-05-05
# 全スライド病理画像の迅速診断のための深層強化学習フレームワーク

A Deep Reinforcement Learning Framework for Rapid Diagnosis of Whole Slide Pathological Images ( http://arxiv.org/abs/2205.02850v1 )

ライセンス: Link先を確認
Tingting Zheng, Weixing chen, Shuqin Li, Hao Quan, Qun Bai, Tianhang Nan, Song Zheng, Xinghua Gao, Yue Zhao and Xiaoyu Cui(参考訳) 深層ニューラルネットワークは病理画像解析のための研究ホットスポットであり、病理医の診断の効率と正確性を改善したり、疾患スクリーニングに用いることができる。 スライドの病理画像全体は1ギガピクセルに達し、豊富な組織特徴情報が含まれており、トレーニングと推論の段階で多くのパッチに分割される必要がある。 これにより、長い収束時間と大きなメモリ消費につながる。 さらに、注釈付きデータセットもデジタル病理学の分野では不足している。 病理医の臨床診断プロセスにヒントを得て,ネットワーク推論に要する時間を大幅に削減できる,弱教師付き深層強化学習フレームワークを提案する。 ニューラルネットワークを用いて,強化学習エージェントの探索モデルと決定モデルを構築した。 探索モデルは、現在の視野における異なる倍率の画像特徴を通して次の動作を予測し、決定モデルを用いて現在の視野画像の予測確率を返却する。 さらに,多インスタンス学習によって専門家誘導モデルを構築し,検索モデルに報酬を与えるだけでなく,知識蒸留法による意思決定モデル学習もガイドする。 実験の結果,提案手法はピクセルレベルのアノテーションを必要とせず,スライド画像全体の高速推定と正確な予測が可能となった。

The deep neural network is a research hotspot for histopathological image analysis, which can improve the efficiency and accuracy of diagnosis for pathologists or be used for disease screening. The whole slide pathological image can reach one gigapixel and contains abundant tissue feature information, which needs to be divided into a lot of patches in the training and inference stages. This will lead to a long convergence time and large memory consumption. Furthermore, well-annotated data sets are also in short supply in the field of digital pathology. Inspired by the pathologist's clinical diagnosis process, we propose a weakly supervised deep reinforcement learning framework, which can greatly reduce the time required for network inference. We use neural network to construct the search model and decision model of reinforcement learning agent respectively. The search model predicts the next action through the image features of different magnifications in the current field of view, and the decision model is used to return the predicted probability of the current field of view image. In addition, an expert-guided model is constructed by multi-instance learning, which not only provides rewards for search model, but also guides decision model learning by the knowledge distillation method. Experimental results show that our proposed method can achieve fast inference and accurate prediction of whole slide images without any pixel-level annotations.
翻訳日:2022-05-09 13:19:29 公開日:2022-05-05
# 準最適化によるチームポリシーの擬似学習

Semi-Supervised Imitation Learning of Team Policies from Suboptimal Demonstrations ( http://arxiv.org/abs/2205.02959v1 )

ライセンス: Link先を確認
Sangwon Seo and Vaibhav V. Unhelkar(参考訳) マルコフ領域における逐次タスクを実行するチームの振る舞いをモデル化する模倣学習アルゴリズムであるBayesian Team Imitation Learner(BTIL)を提案する。 既存のマルチエージェントの模倣学習技術とは対照的に、BTILはチームメンバーの時間的な精神状態を明確にモデル化し、推論することで、最適なチームワークのデモンストレーションから分散型チームポリシーの学習を可能にする。 さらに、小さなデータセットからサンプルおよびラベル効率のポリシー学習を可能にするため、BTILはベイズ的な視点を採用し、半教師付きデモンストレーションから学ぶことができる。 我々は,人工マルチエージェントタスクにおけるbtilの性能と,ヒューマンエージェントチームワークの新たなデータセットの実証とベンチマークを行った。 実験の結果、btilは、チームメンバの精神状態(時間的変動と潜在的に不一致)が行動に与える影響に関わらず、デモからチームのポリシーをうまく学習できることが分かりました。

We present Bayesian Team Imitation Learner (BTIL), an imitation learning algorithm to model behavior of teams performing sequential tasks in Markovian domains. In contrast to existing multi-agent imitation learning techniques, BTIL explicitly models and infers the time-varying mental states of team members, thereby enabling learning of decentralized team policies from demonstrations of suboptimal teamwork. Further, to allow for sample- and label-efficient policy learning from small datasets, BTIL employs a Bayesian perspective and is capable of learning from semi-supervised demonstrations. We demonstrate and benchmark the performance of BTIL on synthetic multi-agent tasks as well as a novel dataset of human-agent teamwork. Our experiments show that BTIL can successfully learn team policies from demonstrations despite the influence of team members' (time-varying and potentially misaligned) mental states on their behavior.
翻訳日:2022-05-09 13:19:10 公開日:2022-05-05
# ニューラルジャコビアン場:任意メッシュの固有のマッピングを学ぶ

Neural Jacobian Fields: Learning Intrinsic Mappings of Arbitrary Meshes ( http://arxiv.org/abs/2205.02904v1 )

ライセンス: Link先を確認
Noam Aigerman, Kunal Gupta, Vladimir G. Kim, Siddhartha Chaudhuri, Jun Saito, Thibault Groueix(参考訳) 本稿では,ニューラルネットワークによる任意のメッシュの断片的線形マッピングを正確に予測し,三角法を共有しないメッシュの異種コレクションのトレーニングと評価を可能にするとともに,精度が最先端の地図を高精度に保存するフレームワークを提案する。 このフレームワークは、ニューラルネットワークの側面を単一の与えられた点に対する行列の予測に還元し、大域的な形状記述子を条件とする。 行列の場は与えられたメッシュの接束に投影され、予測された写像の候補ジャコビアンとして使用される。 マップは標準的な poisson solve によって計算され、効率的なトレーニングのためにキャッシュされた事前リファクタリングを伴う微分可能な層として実装される。 この構成は入力の三角測量に依存せず、三角測量の異なるデータセットへのアプリケーションを可能にする。 同時に、個々のメッシュの固有の勾配ドメインで操作することで、フレームワークが高度に正確なマッピングを予測できるようになる。 これらの特性を,変形,登録,変形移動といった意味的シナリオから,弾性変形や接触補正などの最適化に基づくものまで,幅広いシナリオで実験を行い検証し,任意のメッシュのuvパラメータ化を計算するための学習課題に取り組む。 その結果,フレームワークの変更を伴わずに,上述のシナリオに容易に適用できることから,提案手法の精度と汎用性を示す。

This paper introduces a framework designed to accurately predict piecewise linear mappings of arbitrary meshes via a neural network, enabling training and evaluating over heterogeneous collections of meshes that do not share a triangulation, as well as producing highly detail-preserving maps whose accuracy exceeds current state of the art. The framework is based on reducing the neural aspect to a prediction of a matrix for a single given point, conditioned on a global shape descriptor. The field of matrices is then projected onto the tangent bundle of the given mesh, and used as candidate jacobians for the predicted map. The map is computed by a standard Poisson solve, implemented as a differentiable layer with cached pre-factorization for efficient training. This construction is agnostic to the triangulation of the input, thereby enabling applications on datasets with varying triangulations. At the same time, by operating in the intrinsic gradient domain of each individual mesh, it allows the framework to predict highly-accurate mappings. We validate these properties by conducting experiments over a broad range of scenarios, from semantic ones such as morphing, registration, and deformation transfer, to optimization-based ones, such as emulating elastic deformations and contact correction, as well as being the first work, to our knowledge, to tackle the task of learning to compute UV parameterizations of arbitrary meshes. The results exhibit the high accuracy of the method as well as its versatility, as it is readily applied to the above scenarios without any changes to the framework.
翻訳日:2022-05-09 13:16:21 公開日:2022-05-05
# ラグランジアンPINN:物理インフォームドニューラルネットワークの障害モードに対する因果変換ソリューション

Lagrangian PINNs: A causality-conforming solution to failure modes of physics-informed neural networks ( http://arxiv.org/abs/2205.02902v1 )

ライセンス: Link先を確認
Rambod Mojgani and Maciej Balajewicz and Pedram Hassanzadeh(参考訳) 物理インフォームドニューラルネットワーク(PINN)はニューラルネットワークを利用して、初期条件と境界条件をソフト制約とする偏微分方程式(PDE)制約最適化問題の解を求める。 これらのソフト制約は、しばしばPINNのトレーニングフェーズにおける複雑さの源であると考えられている。 ここでは トレーニングの課題が (i)境界条件が厳格に強制された場合でも継続し、 i) は輸送、対流、進行波、移動前面を示す問題に関連するコルモゴロフ n-幅と密接に関連している。 この実現を前提として,拡張ピン(xpinn)やカリキュラムの正規化,シーケンスツーシーケンス学習など,トレーニングスキームの基礎となるメカニズムについて述べる。 非線形対流拡散方程式によって支配されるPDEの重要なカテゴリとして、ラグランジアンフレーム上のPINN、すなわちLPINNをPDEインフォームドソリューションとして提案する。 2つの分岐を持つ並列アーキテクチャを提案する。 1つの枝は特性上の状態変数を解き、2番目の枝は低次元の特徴曲線を解く。 提案されたアーキテクチャは、対流に固有の因果性に準拠し、ドメイン内の情報の移動の方向を活用する。 最後に,LPINNのロスランドスケープは,Eulerianフレームワークの従来のPINNに比べて,いわゆる「複雑性」に敏感でないことを示す。

Physics-informed neural networks (PINNs) leverage neural-networks to find the solutions of partial differential equation (PDE)-constrained optimization problems with initial conditions and boundary conditions as soft constraints. These soft constraints are often considered to be the sources of the complexity in the training phase of PINNs. Here, we demonstrate that the challenge of training (i) persists even when the boundary conditions are strictly enforced, and (ii) is closely related to the Kolmogorov n-width associated with problems demonstrating transport, convection, traveling waves, or moving fronts. Given this realization, we describe the mechanism underlying the training schemes such as those used in eXtended PINNs (XPINN), curriculum regularization, and sequence-to-sequence learning. For an important category of PDEs, i.e., governed by non-linear convection-diffusion equation, we propose reformulating PINNs on a Lagrangian frame of reference, i.e., LPINNs, as a PDE-informed solution. A parallel architecture with two branches is proposed. One branch solves for the state variables on the characteristics, and the second branch solves for the low-dimensional characteristics curves. The proposed architecture conforms to the causality innate to the convection, and leverages the direction of travel of the information in the domain. Finally, we demonstrate that the loss landscapes of LPINNs are less sensitive to the so-called "complexity" of the problems, compared to those in the traditional PINNs in the Eulerian framework.
翻訳日:2022-05-09 13:12:38 公開日:2022-05-05
# CompactIE:オープン情報抽出におけるコンパクト要素

CompactIE: Compact Facts in Open Information Extraction ( http://arxiv.org/abs/2205.02880v1 )

ライセンス: Link先を確認
Farima Fatahi Bayat, Nikita Bhutani, H.V. Jagadish(参考訳) 現代のニューラルOpenIEシステムとベンチマークの大きな欠点は、成分のコンパクトさよりも抽出における情報の高いカバレッジを優先することである。 これにより、多くの下流タスクにおけるOpenIE抽出の有用性が著しく制限される。 抽出がコンパクトで共有成分であれば、抽出の有用性が向上する。 そこで本研究では,ニューラルベース手法を用いて,コンパクト抽出を識別する問題について検討する。 重なり合う成分を持つコンパクトな抽出を生成するために,新しいパイプライン方式を用いたOpenIEシステムであるCompactIEを提案する。 最初に抽出の成分を検出し、それからそれらをリンクして抽出を構築する。 我々は既存のベンチマークを処理して得られたコンパクトな抽出を学習する。 CRBおよびWire57データセットを用いた実験により,CompactIEは従来のシステムよりも1.5x-2倍コンパクトに抽出できることがわかった。

A major drawback of modern neural OpenIE systems and benchmarks is that they prioritize high coverage of information in extractions over compactness of their constituents. This severely limits the usefulness of OpenIE extractions in many downstream tasks. The utility of extractions can be improved if extractions are compact and share constituents. To this end, we study the problem of identifying compact extractions with neural-based methods. We propose CompactIE, an OpenIE system that uses a novel pipelined approach to produce compact extractions with overlapping constituents. It first detects constituents of the extractions and then links them to build extractions. We train our system on compact extractions obtained by processing existing benchmarks. Our experiments on CaRB and Wire57 datasets indicate that CompactIE finds 1.5x-2x more compact extractions than previous systems, with high precision, establishing a new state-of-the-art performance in OpenIE.
翻訳日:2022-05-09 13:12:11 公開日:2022-05-05
# スーパーイメージによるセグメンテーション : 3次元医用画像解析の新しい2次元視点

Segmentation with Super Images: A New 2D Perspective on 3D Medical Image Analysis ( http://arxiv.org/abs/2205.02847v1 )

ライセンス: Link先を確認
Ikboljon Sobirov, Numan Saeed, and Mohammad Yaqub(参考訳) 深層学習は、医療画像研究における聴衆の増加を示している。 医用画像のセグメンテーションタスクでは、ボリュームデータに依存することが多いため、奥行き次元からより多くの特徴をキャプチャできることで称賛される3dアーキテクチャの使用が必要となる。 しかし、これらのアーキテクチャは一般的に3D畳み込み、最大プール、アップ畳み込み、およびこれらのネットワークで使用される他の操作を考慮して、時間と計算においてより非効率である。 さらに、事前訓練された3次元モデル重量に制限はなく、通常、事前訓練は困難である。 これらの問題を緩和するために,2次元スーパーイメージにボリュームデータをキャストし,セグメンテーションタスクに2次元ネットワークを使用することを提案する。 超高解像度画像を生成するためにスライスを並べて3D画像を処理する。 深度情報は失われていますが、深度ニューラルネットワークがこれらの特徴を捕捉し、学習できると期待しています。 本研究の目的は,ボリュームデータを扱う際の新たな視点を導入し,バニラネットワークを用いて仮説を検証することである。 このアプローチは,2次元データのみを用いて3次元ネットワークに十分近い結果を得ることができれば,将来,特に医療画像解析において,より関連する研究を惹きつけることができると期待している。

Deep learning is showing an increasing number of audience in medical imaging research. In the segmentation task of medical images, we oftentimes rely on volumetric data, and thus require the use of 3D architectures which are praised for their ability to capture more features from the depth dimension. Yet, these architectures are generally more ineffective in time and compute compared to their 2D counterpart on account of 3D convolutions, max pooling, up-convolutions, and other operations used in these networks. Moreover, there are limited to no 3D pretrained model weights, and pretraining is generally challenging. To alleviate these issues, we propose to cast volumetric data to 2D super images and use 2D networks for the segmentation task. The method processes the 3D image by stitching slices side-by-side to generate a super resolution image. While the depth information is lost, we expect that deep neural networks can still capture and learn these features. Our goal in this work is to introduce a new perspective when dealing with volumetric data, and test our hypothesis using vanilla networks. We hope that this approach, while achieving close enough results to 3D networks using only 2D counterparts, can attract more related research in the future, especially in medical image analysis since volumetric data is comparably limited.
翻訳日:2022-05-09 12:39:57 公開日:2022-05-05
# 脳構築:大血管閉塞検出におけるデータ拡張のためのサブボリューム組換え

Building Brains: Subvolume Recombination for Data Augmentation in Large Vessel Occlusion Detection ( http://arxiv.org/abs/2205.02848v1 )

ライセンス: Link先を確認
Florian Thamm and Oliver Taubmann and Markus J\"urgens and Aleksandra Thamm and Felix Denzinger and Leonhard Rist and Hendrik Ditt and Andreas Maier(参考訳) 虚血性脳梗塞はしばしば大血管閉塞(LVO)によって引き起こされる。 時が経つにつれて、これらのスキャンの迅速かつ正確かつ自動化された診断が望ましい。 人間の読者は脳卒中の評価において左右の半球を比較する。 標準のディープラーニングベースのモデルがデータからこの戦略を学ぶためには、大規模なトレーニングデータセットが必要である。 この分野でのラベル付き医療データは稀であり、他の手法の開発が必要である。 側方比較の事前知識とトレーニングデータ量の増加を両立させるため, 異なる患者から, 血管木セグメントや半球サブリージョンを再結合することにより, 人工的なトレーニングサンプルを生成する方法を提案する。 サブリージョンは、lvo(内頸動脈(ica)と中大脳動脈(mca)によって一般的に影響を受ける血管をカバーしている。 拡張スキームに則って,タスク固有の入力を入力した3D-DenseNetを用いて,半球間の比較を行う。 さらに,各半球サブリージョンを処理するためのアーキテクチャの拡張を提案する。 すべての構成は、LOV、その側、および影響を受けるサブリージョンの存在を予測する。 本研究は,5倍のクロスアブレーション実験において,組換えが拡張戦略としての効果を示す。 本研究は,全アーキテクチャのLVOの有無を患者に分類するためのAUCを拡張した。 1つの変種に対して、提案手法はAUCを0.73から0.89に改善した。 最良の構成は、AUCが0.91で、ICAが0.96で、MCAが0.91で、影響を受ける側を正確に予測する。

Ischemic strokes are often caused by large vessel occlusions (LVOs), which can be visualized and diagnosed with Computed Tomography Angiography scans. As time is brain, a fast, accurate and automated diagnosis of these scans is desirable. Human readers compare the left and right hemispheres in their assessment of strokes. A large training data set is required for a standard deep learning-based model to learn this strategy from data. As labeled medical data in this field is rare, other approaches need to be developed. To both include the prior knowledge of side comparison and increase the amount of training data, we propose an augmentation method that generates artificial training samples by recombining vessel tree segmentations of the hemispheres or hemisphere subregions from different patients. The subregions cover vessels commonly affected by LVOs, namely the internal carotid artery (ICA) and middle cerebral artery (MCA). In line with the augmentation scheme, we use a 3D-DenseNet fed with task-specific input, fostering a side-by-side comparison between the hemispheres. Furthermore, we propose an extension of that architecture to process the individual hemisphere subregions. All configurations predict the presence of an LVO, its side, and the affected subregion. We show the effect of recombination as an augmentation strategy in a 5-fold cross validated ablation study. We enhanced the AUC for patient-wise classification regarding the presence of an LVO of all investigated architectures. For one variant, the proposed method improved the AUC from 0.73 without augmentation to 0.89. The best configuration detects LVOs with an AUC of 0.91, LVOs in the ICA with an AUC of 0.96, and in the MCA with 0.91 while accurately predicting the affected side.
翻訳日:2022-05-09 12:39:33 公開日:2022-05-05
# 2022年のLearning-to-Race Challenge: 自律レースにおける安全な学習とクロスドメインの一般化のベンチマーク

Learn-to-Race Challenge 2022: Benchmarking Safe Learning and Cross-domain Generalisation in Autonomous Racing ( http://arxiv.org/abs/2205.02953v1 )

ライセンス: Link先を確認
Jonathan Francis, Bingqing Chen, Siddha Ganju, Sidharth Kathpal, Jyotish Poonganam, Ayush Shivani, Sahika Genc, Ivan Zhukov, Max Kumskoy, Anirudh Koul, Jean Oh and Eric Nyberg(参考訳) 我々は,自動運転における学際的な研究を奨励し,現実的なベンチマークで技術の進歩を支援することを目的とした,L2R(Learning-to-Rac e)シミュレーションフレームワークを新たにリリースした。 最先端の車両のテストにレースが使われるのと同様に、自律レーシングは自律的なエージェントにとって特に挑戦的な基盤となることを想定しています。 i) 複雑で急速に変化する環境において、サブ秒未満の安全クリティカルな決定をする必要がある。 (二) 認識と制御は、分布シフト、新しい道路特徴、目に見えない障害物に対して堅牢でなければならない。 この課題の主な目的は、2段階のプロセスを通じて多モード知覚に基づく強化学習エージェントの協調安全性、性能、一般化能力を評価することである。 課題の第1段階では、安全上の制約に固執しながら、自律的なエージェントができるだけ速く運転できる能力を評価する。 また,第2段階では,安全探索により未確認の競馬場に適応するようエージェントに要求する。 本稿では,改良されたメトリクスとベースラインアプローチを備えた新しいL2R Task 2.0ベンチマークについて述べる。 我々はまた、新しいl2r task 2.0ベンチマークを公式に使用し、20100ビュー以上、アクティブ参加者437名、チーム46名、モデル733名を28カ国の88のユニークな機関から受け取ったl2rautonomous racing virtual challenge(カーネギーメロン大学、asus ltd.、aicrowd、amazon web services、honda researchが支援する)の最初の例の配置、評価、ランキングの概要を提供する。 最後に、この課題からリーダーボード結果をリリースし、複数のセンサ構成とシミュレートされたレースにまたがるクロスドメインモデル転送における上位2つのアプローチについて説明する。

We present the results of our autonomous racing virtual challenge, based on the newly-released Learn-to-Race (L2R) simulation framework, which seeks to encourage interdisciplinary research in autonomous driving and to help advance the state of the art on a realistic benchmark. Analogous to racing being used to test cutting-edge vehicles, we envision autonomous racing to serve as a particularly challenging proving ground for autonomous agents as: (i) they need to make sub-second, safety-critical decisions in a complex, fast-changing environment; and (ii) both perception and control must be robust to distribution shifts, novel road features, and unseen obstacles. Thus, the main goal of the challenge is to evaluate the joint safety, performance, and generalisation capabilities of reinforcement learning agents on multi-modal perception, through a two-stage process. In the first stage of the challenge, we evaluate an autonomous agent's ability to drive as fast as possible, while adhering to safety constraints. In the second stage, we additionally require the agent to adapt to an unseen racetrack through safe exploration. In this paper, we describe the new L2R Task 2.0 benchmark, with refined metrics and baseline approaches. We also provide an overview of deployment, evaluation, and rankings for the inaugural instance of the L2R Autonomous Racing Virtual Challenge (supported by Carnegie Mellon University, Arrival Ltd., AICrowd, Amazon Web Services, and Honda Research), which officially used the new L2R Task 2.0 benchmark and received over 20,100 views, 437 active participants, 46 teams, and 733 model submissions -- from 88 unique institutions, in 28 different countries. Finally, we release leaderboard results from the challenge and provide description of the two top-ranking approaches in cross-domain model transfer, across multiple sensor configurations and simulated races.
翻訳日:2022-05-09 12:20:00 公開日:2022-05-05
# 研究コミュニティを超えた再現性:NLPベギンナの経験

Reproducibility Beyond the Research Community: Experience from NLP Beginners ( http://arxiv.org/abs/2205.02182v2 )

ライセンス: Link先を確認
Shane Storks, Keunwoo Peter Yu, Joyce Chai(参考訳) NLP研究が大衆の注目と興奮を惹きつけるにつれ、幅広い聴衆にアクセスできることがますます重要になっている。 研究コミュニティがNLPの民主化に取り組んでいるため、この分野の初心者が最新の開発を容易に適用できるかどうかは不明だ。 本研究は,最近のNLP論文の成果を再現した入門NLPコースにおいて,93名の学生を対象に調査を行った。 意外なことに、我々の結果は、彼らの技術スキル(つまりプログラミングの経験)が、演習の完了に費やした労力に限られた影響を与えていることを示唆している。 その代わり、詳細なドキュメンテーションや必要なモデルやデータセットへの容易なアクセスなど、研究者によるアクセシビリティの取り組みが成功への鍵であることが分かっています。

As NLP research attracts public attention and excitement, it becomes increasingly important for it to be accessible to a broad audience. As the research community works to democratize NLP, it remains unclear whether beginners to the field can easily apply the latest developments. To understand their needs, we conducted a study with 93 students in an introductory NLP course, where students reproduced results of recent NLP papers. Surprisingly, our results suggest that their technical skill (i.e., programming experience) has limited impact on their effort spent completing the exercise. Instead, we find accessibility efforts by research authors to be key to a successful experience, including thorough documentation and easy access to required models and datasets.
翻訳日:2022-05-09 10:42:02 公開日:2022-05-05
# hiure: 教師なし関係抽出のための階層型例示コントラスト学習

HiURE: Hierarchical Exemplar Contrastive Learning for Unsupervised Relation Extraction ( http://arxiv.org/abs/2205.02225v2 )

ライセンス: Link先を確認
Shuliang Liu, Xuming Hu, Chenwei Zhang, Shu`ang Li, Lijie Wen, Philip S. Yu(参考訳) 教師なし関係抽出は、関係範囲や分布に関する事前情報なしに自然言語文からエンティティ間の関係を抽出することを目的としている。 既存の作業では、段階的なドリフト問題を引き起こす適応的クラスタリングと分類を反復的に活用することで、自己指導型特徴信号の洗練に活用するか、あるいは意味論的に類似した文対を不当に分離するインスタンスワイドコントラスト学習を採用するかのいずれかである。 これらの欠陥を克服するために,クロスヒエラルキーに着目して階層的特徴空間から階層的信号を導出し,例示的コントラスト学習下での文の関係表現を効果的に最適化するhureという新しいコントラスト学習フレームワークを提案する。 2つの公開データセットの実験結果は、最先端モデルと比較した場合の教師なし関係抽出におけるHiUREの有効性とロバスト性を示す。

Unsupervised relation extraction aims to extract the relationship between entities from natural language sentences without prior information on relational scope or distribution. Existing works either utilize self-supervised schemes to refine relational feature signals by iteratively leveraging adaptive clustering and classification that provoke gradual drift problems, or adopt instance-wise contrastive learning which unreasonably pushes apart those sentence pairs that are semantically similar. To overcome these defects, we propose a novel contrastive learning framework named HiURE, which has the capability to derive hierarchical signals from relational feature space using cross hierarchy attention and effectively optimize relation representation of sentences under exemplar-wise contrastive learning. Experimental results on two public datasets demonstrate the advanced effectiveness and robustness of HiURE on unsupervised relation extraction when compared with state-of-the-art models.
翻訳日:2022-05-09 09:07:15 公開日:2022-05-05
# (参考訳) 商業・産業保険における建築設計図のaiによる解釈の範囲

The scope for AI-augmented interpretation of building blueprints in commercial and industrial property insurance ( http://arxiv.org/abs/2205.01671v2 )

ライセンス: CC BY 4.0
Long Chen, Mao Ye, Alistair Milne, John Hillier, Frances Oglesby(参考訳) WTW研究ネットワークが委託したこの報告書は、資産リスク評価におけるAIの利用について調査する。 それ 一 商業的及び工業的財産のリスクアセスメント及び建築青写真からの自動情報抽出に関する既存業務の見直し及び (ii)保険リスクアセスメントを支援するため、建築青写真から情報の自動抽出に機械学習を用いた可能性を検討する「概念実証」を提案する。

This report, commissioned by the WTW research network, investigates the use of AI in property risk assessment. It (i) reviews existing work on risk assessment in commercial and industrial properties and automated information extraction from building blueprints; and (ii) presents an exploratory 'proof-of concept-solution 7; exploring the feasibility of using machine learning for the automated extraction of information from building blueprints to support insurance risk assessment.
翻訳日:2022-05-08 23:13:04 公開日:2022-05-05
# (参考訳) RANG:物理インフォームドニューラルネットワークのための残差に基づく適応ノード生成手法

RANG: A Residual-based Adaptive Node Generation Method for Physics-Informed Neural Networks ( http://arxiv.org/abs/2205.01051v2 )

ライセンス: CC BY 4.0
Wei Peng, Weien Zhou, Xiaoya Zhang, Wen Yao, Zheliang Liu(参考訳) 物理インフォームドニューラルネットワーク(PINN)を用いた偏微分方程式(PDE)の学習法は、観測データの導入の柔軟性と容易さから、従来の解法よりも魅力的な方法である。 PINNは様々なPDEを正確に解くのに成功しているが、計算効率の面では依然として改善が必要である。 改善のアイデアのひとつは、トレーニングポイントセットの生成を最適化することです。 PINNのトレーニング効果を改善するために,残差に基づく適応サンプリングと準一様サンプリングをそれぞれ適用した。 両手法の利点を生かし, RBF-FD の変動密度結節分布法に基づく PINN の効率的なトレーニングのためのResidual-based Adaptive Node Generation (RANG) 手法を提案する。 また、記憶機構によりトレーニング安定性をさらに向上させる。 本研究では, ノード生成方式による3つの線形PDEと3つの非線形PDEの実験を行い, 提案手法の精度と効率を一様サンプリング法と比較して数値的に検証した。

Learning solutions of partial differential equations (PDEs) with Physics-Informed Neural Networks (PINNs) is an attractive alternative approach to traditional solvers due to its flexibility and ease of incorporating observed data. Despite the success of PINNs in accurately solving a wide variety of PDEs, the method still requires improvements in terms of computational efficiency. One possible improvement idea is to optimize the generation of training point sets. Residual-based adaptive sampling and quasi-uniform sampling approaches have been each applied to improve the training effects of PINNs, respectively. To benefit from both methods, we propose the Residual-based Adaptive Node Generation (RANG) approach for efficient training of PINNs, which is based on a variable density nodal distribution method for RBF-FD. The method is also enhanced by a memory mechanism to further improve training stability. We conduct experiments on three linear PDEs and three nonlinear PDEs with various node generation methods, through which the accuracy and efficiency of the proposed method compared to the predominant uniform sampling approach is verified numerically.
翻訳日:2022-05-07 10:45:36 公開日:2022-05-05
# (参考訳) time-multiplexed neural holography:高速高量子化空間光変調器を用いたホログラフィック近眼ディスプレイのための柔軟な枠組み [全文訳有]

Time-multiplexed Neural Holography: A flexible framework for holographic near-eye displays with fast heavily-quantized spatial light modulators ( http://arxiv.org/abs/2205.02367v1 )

ライセンス: CC BY 4.0
Suyeon Choi, Manu Gopakumar, Yifan (Evan) Peng, Jonghyun Kim, Matthew O'Toole, Gordon Wetzstein(参考訳) ホログラフィックの近眼ディスプレイは、知覚的に重要なフォーカスキューを含む、バーチャルおよび拡張現実システムに前例のない機能を提供する。 コンピュータ生成ホログラフィー(CGH)のための人工知能駆動アルゴリズムは、最近ホログラムの画質と合成効率の改善に大きく進歩しているが、これらのアルゴリズムは、非常に高速であるが、非常に精度の低い位相制御を提供する新興位相専用空間光変調器(SLM)には直接適用できない。 これらのSLMの速度は時間多重化機能を提供し、本質的には部分的にコヒーレントなホログラフィック表示モードを可能にする。 本稿では,このようなホログラフィック近眼ディスプレイのカメラ校正波伝搬モデルの進歩を報告し,高速SLMの高量子化位相パターンを強力に最適化するCGHフレームワークを開発した。 本フレームワークは,2次元および2.5次元RGBD画像,3次元焦点スタック,4次元光フィールドなど,さまざまなタイプのコンテンツによる実行時の監視を支援する。 このフレームワークを用いて,シミュレーションおよび実験において,これらのシナリオの最先端結果を示す。

Holographic near-eye displays offer unprecedented capabilities for virtual and augmented reality systems, including perceptually important focus cues. Although artificial intelligence--driven algorithms for computer-generated holography (CGH) have recently made much progress in improving the image quality and synthesis efficiency of holograms, these algorithms are not directly applicable to emerging phase-only spatial light modulators (SLM) that are extremely fast but offer phase control with very limited precision. The speed of these SLMs offers time multiplexing capabilities, essentially enabling partially-coherent holographic display modes. Here we report advances in camera-calibrated wave propagation models for these types of holographic near-eye displays and we develop a CGH framework that robustly optimizes the heavily quantized phase patterns of fast SLMs. Our framework is flexible in supporting runtime supervision with different types of content, including 2D and 2.5D RGBD images, 3D focal stacks, and 4D light fields. Using our framework, we demonstrate state-of-the-art results for all of these scenarios in simulation and experiment.
翻訳日:2022-05-07 07:09:52 公開日:2022-05-05
# (参考訳) PreME:対話型アンケートによる前提に基づく会議探索 [全文訳有]

PREME: Preference-based Meeting Exploration through an Interactive Questionnaire ( http://arxiv.org/abs/2205.02370v1 )

ライセンス: CC BY 4.0
Negar Arabzadeh and Ali Ahmadvand and Julia Kiseleva and Yang Liu and Ahmed Hassan Awadallah and Ming Zhong and Milad Shokouhi(参考訳) 近年のオンラインミーティングの量の増加は、特に参加者が議論を逃し、迅速な探索を支援する必要がある場合、材料の管理と組織化のための自動化ツールを必要としている。 本研究では,好みに基づく会議探索のための対話型アンケートを生成するための新しいエンドツーエンドフレームワークを提案する。 結果として、ユーザーは好みを反映した提案質問のリストを提供する。 タスクは新しいので,自動評価戦略を導入する。 すなわち、実際の正確性を確保するために、アンケートによって生成された質問がどの程度答えられるかを計測し、探索の可能性の深さまでソースミーティングをカバーできる。

The recent increase in the volume of online meetings necessitates automated tools for managing and organizing the material, especially when an attendee has missed the discussion and needs assistance in quickly exploring it. In this work, we propose a novel end-to-end framework for generating interactive questionnaires for preference-based meeting exploration. As a result, users are supplied with a list of suggested questions reflecting their preferences. Since the task is new, we introduce an automatic evaluation strategy. Namely, it measures how much the generated questions via questionnaire are answerable to ensure factual correctness and covers the source meeting for the depth of possible exploration.
翻訳日:2022-05-07 06:37:09 公開日:2022-05-05
# (参考訳) 頑健な視覚物体追跡と半教師付きモデル学習のためのベイズ検出追跡システム [全文訳有]

A Bayesian Detect to Track System for Robust Visual Object Tracking and Semi-Supervised Model Learning ( http://arxiv.org/abs/2205.02371v1 )

ライセンス: CC BY 4.0
Yan Shen, Zhanghexuan Ji, Chunwei Ma, Mingchen Gao(参考訳) 物体追跡は視覚認識タスクにおける基本的な問題の1つであり、近年で大幅に改善されている。 この成果は、大量のハードウェア消費と連続的なラベル付けのための高価な労力のコストが伴うことが多い。 ロバストトラッキングの欠如する要素は、ネットワーク構造と半教師付き学習間欠的なラベル付きフレームに最小限の修正を加えて性能を達成することである。 本稿では,ニューラルネットワークの出力によってパラメータ化されたベイズ追跡検出フレームワークにおいて,これらの問題に適応する。 提案手法では,マルチオブジェクトのダイナミクスやネットワーク検出の不確実性といった確率的手法で追跡・検出プロセスを定式化する。 本稿では,対象状態推定のための粒子フィルタに基づく近似サンプリングアルゴリズムを提案する。 本アルゴリズムは,粒子フィルタ推定アルゴリズムを用いて,間欠的なラベル付きフレーム上での学習ネットワークを変動推論により学習する。 実験では,提案アルゴリズムと非ベイズ解との比較のために,mAPと確率に基づく検出の測定を行った。 また、M2Cai16-Tool-Locatio ns Dataset上で半教師付きトラッキングネットワークをトレーニングし、完全なラベル付きフレーム上で教師付き学習と比較する。

Object tracking is one of the fundamental problems in visual recognition tasks and has achieved significant improvements in recent years. The achievements often come with the price of enormous hardware consumption and expensive labor effort for consecutive labeling. A missing ingredient for robust tracking is achieving performance with minimal modification on network structure and semi-supervised learning intermittent labeled frames. In this paper, we ad-dress these problems in a Bayesian tracking and detection framework parameterized by neural network outputs. In our framework, the tracking and detection process is formulated in a probabilistic way as multi-objects dynamics and network detection uncertainties. With our formulation, we propose a particle filter-based approximate sampling algorithm for tracking object state estimation. Based on our particle filter inference algorithm, a semi-supervised learn-ing algorithm is utilized for learning tracking network on intermittent labeled frames by variational inference. In our experiments, we provide both mAP and probability-based detection measurements for comparison between our algorithm with non-Bayesian solutions. We also train a semi-supervised tracking network on M2Cai16-Tool-Locatio ns Dataset and compare our results with supervised learning on fully labeled frames.
翻訳日:2022-05-07 06:21:14 公開日:2022-05-05
# (参考訳) 不確実性に基づく非パラメトリックアクティブピーク検出 [全文訳有]

Uncertainty-Based Non-Parametric Active Peak Detection ( http://arxiv.org/abs/2205.02376v1 )

ライセンス: CC BY 4.0
Praneeth Narayanamurthy and Urbashi Mitra(参考訳) アクティブな非パラメトリックピーク検出が検討されている。 利用例として、アクティブな音源定位を調べ、少数のエネルギー測定からピークを効果的に局在化するための不確実性に基づくサンプリングスキームアルゴリズムを設計する。 非常に穏やかな条件下では、$m$の有効選択エネルギー測定誤差は$O(\log^2 m/m)$である。 数値的には, 低サンプル方式では, 提案手法は複数のデータに対して優れた性能を示し, 最先端のパッシブソースローカライゼーション手法よりも優れており, 低サンプル方式では, グリーディ方式よりも優れることが示された。

Active, non-parametric peak detection is considered. As a use case, active source localization is examined and an uncertainty-based sampling scheme algorithm to effectively localize the peak from a few energy measurements is designed. It is shown that under very mild conditions, the source localization error with $m$ actively chosen energy measurements scales as $O(\log^2 m/m)$. Numerically, it is shown that in low-sample regimes, the proposed method enjoys superior performance on several types of data and outperforms the state-of-the-art passive source localization approaches and in the low sample regime, can outperform greedy methods as well.
翻訳日:2022-05-07 05:44:38 公開日:2022-05-05
# (参考訳) 協調環境における対話型接地言語理解:IGLU 2021 [全文訳有]

Interactive Grounded Language Understanding in a Collaborative Environment: IGLU 2021 ( http://arxiv.org/abs/2205.02388v1 )

ライセンス: CC BY-SA 4.0
Julia Kiseleva and Ziming Li and Mohammad Aliannejadi and Shrestha Mohanty and Maartje ter Hoeve and Mikhail Burtsev and Alexey Skrynnik and Artem Zholus and Aleksandr Panov and Kavya Srinet and Arthur Szlam and Yuxuan Sun and Marc-Alexandre C\^ot\'e Katja Hofmann and Ahmed Awadallah and Linar Abdrazakov and Igor Churin and Putra Manggala and Kata Naszadi and Michiel van der Meer and Taewoon Kim(参考訳) 人間の知性は、新しいタスクや環境に迅速に適応する能力を持っている。 非常に若い頃から、人間は新たなスキルを身につけ、他人の行動を真似たり、自然言語による指示に従うことで新しいタスクを解く方法を学ぶ。 この方向の研究を容易にするために, 協調環境における対話型基底言語理解について提案する。 このコンペの主なゴールは、協調環境で基礎的な自然言語命令を提供しながら、タスクの解決を学ぶ対話的なエージェントを構築する方法の課題にアプローチすることである。 課題の複雑さを理解するために、それをサブタスクに分割して、参加者に実現できるようにしました。

Human intelligence has the remarkable ability to quickly adapt to new tasks and environments. Starting from a very young age, humans acquire new skills and learn how to solve new tasks either by imitating the behavior of others or by following provided natural language instructions. To facilitate research in this direction, we propose \emph{IGLU: Interactive Grounded Language Understanding in a Collaborative Environment}. The primary goal of the competition is to approach the problem of how to build interactive agents that learn to solve a task while provided with grounded natural language instructions in a collaborative environment. Understanding the complexity of the challenge, we split it into sub-tasks to make it feasible for participants.
翻訳日:2022-05-07 05:28:08 公開日:2022-05-05
# (参考訳) 深部画像と生成前兆を用いた圧縮的ptychography [全文訳有]

Compressive Ptychography using Deep Image and Generative Priors ( http://arxiv.org/abs/2205.02397v1 )

ライセンス: CC BY 4.0
Semih Barutcu, Do\u{g}a G\"ursoy, Aggelos K. Katsaggelos(参考訳) Ptychographyは、ナノスケールでサンプルの非侵襲的なイメージングを可能にする、確立されたコヒーレント回折イメージング技術である。 防衛産業や材料科学など、様々な分野で広く使用されている。 Ptychographyの最大の制限は、サンプルの機械的スキャンによる長いデータ取得時間であり、スキャンポイントを減らすアプローチが望まれている。 しかし、スキャンポイントの少ない再構成は画像のアーティファクトと大きな歪みをもたらし、結果の定量的評価を妨げている。 そこで本稿では,このボトルネックに対処するために,深部画像優先と深部生成優先を組み合わせた生成モデルを提案する。 自己学習アプローチは、ディープジェネレーティブニューラルネットワークを最適化して、所定のデータセットのソリューションを作成する。 本手法は,予め訓練した判別器ネットワークから事前取得した手法で補完し,測定結果のノイズによる所望の出力からの逸脱を回避する。 また,測定ノイズによる戦闘アーティファクトの補足として総変動を用いることも提案する。 我々は,異なるプローブ重複率と異なる雑音レベルを用いて数値解析を行った。 また,最先端手法と比較して再構築精度を向上し,提案手法の利点と欠点について考察した。

Ptychography is a well-established coherent diffraction imaging technique that enables non-invasive imaging of samples at a nanometer scale. It has been extensively used in various areas such as the defense industry or materials science. One major limitation of ptychography is the long data acquisition time due to mechanical scanning of the sample; therefore, approaches to reduce the scan points are highly desired. However, reconstructions with less number of scan points lead to imaging artifacts and significant distortions, hindering a quantitative evaluation of the results. To address this bottleneck, we propose a generative model combining deep image priors with deep generative priors. The self-training approach optimizes the deep generative neural network to create a solution for a given dataset. We complement our approach with a prior acquired from a previously trained discriminator network to avoid a possible divergence from the desired output caused by the noise in the measurements. We also suggest using the total variation as a complementary before combat artifacts due to measurement noise. We analyze our approach with numerical experiments through different probe overlap percentages and varying noise levels. We also demonstrate improved reconstruction accuracy compared to the state-of-the-art method and discuss the advantages and disadvantages of our approach.
翻訳日:2022-05-07 05:08:30 公開日:2022-05-05
# (参考訳) スポット適応型知識蒸留 [全文訳有]

Spot-adaptive Knowledge Distillation ( http://arxiv.org/abs/2205.02399v1 )

ライセンス: CC BY 4.0
Jie Song, Ying Chen, Jingwen Ye, Mingli Song(参考訳) 知識蒸留(KD)はディープニューラルネットワークの圧縮のパラダイムとして確立されている。 知識蒸留を行う典型的な方法は、教師ネットワークの監督の下で生徒ネットワークを訓練し、教師ネットワーク内の1つまたは複数の場所(すなわち層)で知識を活用することである。 蒸留スポットは一度指定すれば、蒸留プロセス全体を通してすべてのトレーニングサンプルに対して変更されない。 本研究では, 蒸留スポットは, 試料採取と蒸留エポックの訓練に適応するべきであると論じる。 そこで本研究では,全蒸留期間中のトレーニングイテレーション毎に,サンプルごとの教師ネットワーク内の蒸留スポットを適応的に決定する,新しい蒸留戦略であるスポット適応型KD(SAKD)を提案する。 SAKDは、既存のほとんどの研究で広く研究されている「蒸留する場所」ではなく「蒸留する場所」に焦点を当てているため、既存の蒸留法にシームレスに統合して性能を向上することができる。 均質蒸留および不均質蒸留条件下でのsakdの蒸留性能向上効果を実証するために, 最新の10種類の蒸留器を用いた広範な実験を行った。 コードはhttps://github.com/z ju-vipa/spot-adaptiv e-pytorchで入手できる。

Knowledge distillation (KD) has become a well established paradigm for compressing deep neural networks. The typical way of conducting knowledge distillation is to train the student network under the supervision of the teacher network to harness the knowledge at one or multiple spots (i.e., layers) in the teacher network. The distillation spots, once specified, will not change for all the training samples, throughout the whole distillation process. In this work, we argue that distillation spots should be adaptive to training samples and distillation epochs. We thus propose a new distillation strategy, termed spot-adaptive KD (SAKD), to adaptively determine the distillation spots in the teacher network per sample, at every training iteration during the whole distillation period. As SAKD actually focuses on "where to distill" instead of "what to distill" that is widely investigated by most existing works, it can be seamlessly integrated into existing distillation methods to further improve their performance. Extensive experiments with 10 state-of-the-art distillers are conducted to demonstrate the effectiveness of SAKD for improving their distillation performance, under both homogeneous and heterogeneous distillation settings. Code is available at https://github.com/z ju-vipa/spot-adaptiv e-pytorch
翻訳日:2022-05-07 04:46:33 公開日:2022-05-05
# (参考訳) 混合高次関係を持つダングリング・アウェア・エンティティアライメント [全文訳有]

Dangling-Aware Entity Alignment with Mixed High-Order Proximities ( http://arxiv.org/abs/2205.02406v1 )

ライセンス: CC BY 4.0
Juncheng Liu, Zequn Sun, Bryan Hooi, Yiwei Wang, Dayiheng Liu, Baosong Yang, Xiaokui Xiao, Muhao Chen(参考訳) 知識グラフ(kgs)におけるダングリング・アウェア・エンティティアライメント(dangling-aware entity alignment)について検討した。 異なる KG は自然に異なる実体の集合によって構成されるので、KG は一般に、他の KG において他の KG の集合を見つけることができない有界な実体を含む。 したがって、ダングリングを意識したエンティティアライメントは、ダングリングエンティティを単に無視する従来のエンティティアライメントよりも現実的である。 ダングリング対応エンティティアライメントにおける混合高次近似を用いたフレームワークを提案する。 提案手法は,近接部分グラフにおける局所高次近接と埋め込み空間における大域的高次近接の両方を用いて,ダングリング検出とエンティティアライメントの両方を行う。 2つの評価設定による大規模な実験により、我々のフレームワークはより正確にダングリングエンティティを検出し、マッチング可能なエンティティをよりよく整合させる。 さらなる調査により、我々のフレームワークは、ダングリング対応エンティティアライメントにおけるハブ性問題を緩和できることが示された。

We study dangling-aware entity alignment in knowledge graphs (KGs), which is an underexplored but important problem. As different KGs are naturally constructed by different sets of entities, a KG commonly contains some dangling entities that cannot find counterparts in other KGs. Therefore, dangling-aware entity alignment is more realistic than the conventional entity alignment where prior studies simply ignore dangling entities. We propose a framework using mixed high-order proximities on dangling-aware entity alignment. Our framework utilizes both the local high-order proximity in a nearest neighbor subgraph and the global high-order proximity in an embedding space for both dangling detection and entity alignment. Extensive experiments with two evaluation settings shows that our framework more precisely detects dangling entities, and better aligns matchable entities. Further investigations demonstrate that our framework can mitigate the hubness problem on dangling-aware entity alignment.
翻訳日:2022-05-07 04:23:13 公開日:2022-05-05
# (参考訳) ハイブリッドモデルベイズ推論のための動的ベイズネットワーク補助ABC-SMCによるバイオ製造プロセスの学習とロバスト制御 [全文訳有]

Dynamic Bayesian Network Auxiliary ABC-SMC for Hybrid Model Bayesian Inference to Accelerate Biomanufacturing Process Mechanism Learning and Robust Control ( http://arxiv.org/abs/2205.02410v1 )

ライセンス: CC BY 4.0
Wei Xie, Keqi Wang, Hua Zheng, Ben Feng(参考訳) バイオマニファクチャリング4.0の致命的なニーズにより,基礎となる生物処理機構の複雑な空間-時間因果相互依存性を特徴付ける確率的知識グラフハイブリッドモデルを提案する。 非線形反応、部分的に観察された状態、非定常ダイナミクスを含む重要な性質を忠実に捉えることができる。 限られたプロセス観察が与えられると、後続分布定量化モデルの不確実性が導出され、メカニズム学習が容易になり、ロバストなプロセス制御がサポートされる。 難解な確率の評価を避けるために,逐次モンテカルロ(abc-smc)を用いた近似ベイズ計算サンプリング法を開発した。 高確率およびモデルの不確実性を考えると、プロセス出力軌跡と一致させることは計算コストがかかる。 そこで本稿では,線形ガウス動的ベイズネットワーク (LG-DBN) 補助確率ベースABC-SMC アルゴリズムを提案する。 観測およびシミュレーションされた要約統計値の一致により,提案手法は計算コストを劇的に削減し,後部近似収束を加速することができる。

Driven by the critical needs of biomanufacturing 4.0, we present a probabilistic knowledge graph hybrid model characterizing complex spatial-temporal causal interdependencies of underlying bioprocessing mechanisms. It can faithfully capture the important properties, including nonlinear reactions, partially observed state, and nonstationary dynamics. Given limited process observations, we derive a posterior distribution quantifying model uncertainty, which can facilitate mechanism learning and support robust process control. To avoid evaluation of intractable likelihood, Approximate Bayesian Computation sampling with Sequential Monte Carlo (ABC-SMC) is developed to approximate the posterior distribution. Given high stochastic and model uncertainties, it is computationally expensive to match process output trajectories. Therefore, we propose a linear Gaussian dynamic Bayesian network (LG-DBN) auxiliary likelihood-based ABC-SMC algorithm. Through matching observed and simulated summary statistics, the proposed approach can dramatically reduce the computation cost and accelerate the posterior approximation convergence.
翻訳日:2022-05-07 04:06:20 公開日:2022-05-05
# (参考訳) FAITH:階層型タスクグラフを用いたFew-Shotグラフ分類 [全文訳有]

FAITH: Few-Shot Graph Classification with Hierarchical Task Graphs ( http://arxiv.org/abs/2205.02435v1 )

ライセンス: CC BY 4.0
Song Wang, Yushun Dong, Xiao Huang, Chen Chen, Jundong Li(参考訳) 少数ショットグラフ分類はグラフのクラスを予測することを目的としており、各クラスに対して限定ラベル付きグラフが与えられる。 ラベル不足のボトルネックに対処するため、近年の研究では、ラベル付きグラフに制限のあるグラフクラスへの高速適応のための、数発の学習フレームワークの導入が提案されている。 具体的には,多種多様なメタ学習課題にまたがってメタ知識を蓄積し,そのメタ知識を対象タスクに一般化することを提案する。 しかし、既存の手法は一般にメタトレーニングタスク間のタスク相関を無視し、個別に扱う。 それにもかかわらず、そのようなタスク相関はモデル一般化を目標タスクに前進させ、より良い分類性能を得ることができる。 一方,多くのメタ学習タスクにおいて,複雑な構成成分が原因で,タスク相関を利用するのは簡単ではない。 そこで本研究では,異なる粒度で階層的タスクグラフを構築し,タスク相関を捉えた,新しいマイズショット学習フレームワーク信条を提案する。 さらに,クラスに関連付けられたタスクを選択するためのロスベースのサンプリング戦略も設計する。 さらに,学習したタスク相関を数ショットの分類に活用するために,タスク固有分類器を提案する。 一般的な4つのグラフ分類データセットに関する広範囲な実験は、他の最先端のベースラインよりも信頼が優れていることを示している。

Few-shot graph classification aims at predicting classes for graphs, given limited labeled graphs for each class. To tackle the bottleneck of label scarcity, recent works propose to incorporate few-shot learning frameworks for fast adaptations to graph classes with limited labeled graphs. Specifically, these works propose to accumulate meta-knowledge across diverse meta-training tasks, and then generalize such meta-knowledge to the target task with a disjoint label set. However, existing methods generally ignore task correlations among meta-training tasks while treating them independently. Nevertheless, such task correlations can advance the model generalization to the target task for better classification performance. On the other hand, it remains non-trivial to utilize task correlations due to the complex components in a large number of meta-training tasks. To deal with this, we propose a novel few-shot learning framework FAITH that captures task correlations via constructing a hierarchical task graph at different granularities. Then we further design a loss-based sampling strategy to select tasks with more correlated classes. Moreover, a task-specific classifier is proposed to utilize the learned task correlations for few-shot classification. Extensive experiments on four prevalent few-shot graph classification datasets demonstrate the superiority of FAITH over other state-of-the-art baselines.
翻訳日:2022-05-07 03:45:24 公開日:2022-05-05
# (参考訳) パーソナライズされた半教師付き学習における不確実性最小化 [全文訳有]

Uncertainty Minimization for Personalized Federated Semi-Supervised Learning ( http://arxiv.org/abs/2205.02438v1 )

ライセンス: CC BY 4.0
Yanhang Shi, Siguang Chen, and Haijun Zhang(参考訳) フェデレートラーニング(FL)は,プライバシ保護を伴う分散学習技術として導入されているため,分散データの統計的不均一性は,FLアプリケーションにおける堅牢な性能と安定した収束を実現するための主要な障害である。 この問題を解決するためにモデルパーソナライズ手法が研究されている。 しかし、既存のアプローチは、専門知識の要求により実際には非現実的な完全ラベル付きデータの前提条件下にある。 部分ラベル状態によって引き起こされる主な問題は、ラベル付きデータの不足したクライアントは、グローバルモデルをカスタマイズするためのローカル分散に関する十分な洞察がないため、不公平なパフォーマンス向上に苦しむ可能性があることである。 この問題に取り組むために 1)データ関連クライアント(ヘルパーエージェント)からのラベル付け支援を部分ラベルまたはラベルなしのクライアントが求めることのできる,パーソナライズされた半教師付き学習パラダイムを提案する。 2) このパラダイムを基礎として,不確実性に基づくデータ相関尺度を設計し,選択したヘルパーが,ローカルトレーニングを誤解させることなく,信頼できる擬似ラベルを提供できるようにした。 3) ヘルパー探索によって導入されたネットワーク過負荷を軽減するため, より効率的な通信を実現するためのヘルパー選択プロトコルを開発した。 実験により,提案手法は,特に不均質な設定において,部分ラベル付きデータを用いた他の作業よりも優れた性能とより安定な収束が得られることが示された。

Since federated learning (FL) has been introduced as a decentralized learning technique with privacy preservation, statistical heterogeneity of distributed data stays the main obstacle to achieve robust performance and stable convergence in FL applications. Model personalization methods have been studied to overcome this problem. However, existing approaches are mainly under the prerequisite of fully labeled data, which is unrealistic in practice due to the requirement of expertise. The primary issue caused by partial-labeled condition is that, clients with deficient labeled data can suffer from unfair performance gain because they lack adequate insights of local distribution to customize the global model. To tackle this problem, 1) we propose a novel personalized semi-supervised learning paradigm which allows partial-labeled or unlabeled clients to seek labeling assistance from data-related clients (helper agents), thus to enhance their perception of local data; 2) based on this paradigm, we design an uncertainty-based data-relation metric to ensure that selected helpers can provide trustworthy pseudo labels instead of misleading the local training; 3) to mitigate the network overload introduced by helper searching, we further develop a helper selection protocol to achieve efficient communication with negligible performance sacrifice. Experiments show that our proposed method can obtain superior performance and more stable convergence than other related works with partial labeled data, especially in highly heterogeneous setting.
翻訳日:2022-05-07 03:32:09 公開日:2022-05-05
# (参考訳) テキストから芸術的画像生成 [全文訳有]

Text to artistic image generation ( http://arxiv.org/abs/2205.02439v1 )

ライセンス: CC BY-SA 4.0
Qinghe Tian (University of Waterloo), Jean-Claude Franchitti (New York University Courant Institute)(参考訳) 絵画は、人々が自分のアイデアを表現する方法の1つですが、障害を持つ人が絵を描きたい場合はどうでしょう? この課題に取り組むために、テキスト記述から芸術的な画像を生成するエンドツーエンドのソリューションを作成します。 しかし、テキスト記述と芸術画像のペアによるデータセットの欠如により、テキスト入力に基づいてアートを作成するアルゴリズムを直接学習することは困難である。 この問題に対処するため,我々は,(1)動的メモリ生成適応ネットワーク(arXiv:1904.01310),( 2)Resnet(arXiv:1512. 03385)を用いてWikiArtデータセットに存在するジャンルとしてイメージを分類する(arXiv:1705.06830),( 3)ジャンルと互換性のあるスタイルを選択して,ニューラルネットワーク(arXiv:1705.06830)を用いて生成画像に転送する(arXiv:1705.06830)という3つのステップに分割した。

Painting is one of the ways for people to express their ideas, but what if people with disabilities in hands want to paint? To tackle this challenge, we create an end-to-end solution that can generate artistic images from text descriptions. However, due to the lack of datasets with paired text description and artistic images, it is hard to directly train an algorithm which can create art based on text input. To address this issue, we split our task into three steps: (1) Generate a realistic image from a text description by using Dynamic Memory Generative Adversarial Network (arXiv:1904.01310), (2) Classify the image as a genre that exists in the WikiArt dataset using Resnet (arXiv: 1512.03385), (3) Select a style that is compatible with the genre and transfer it to the generated image by using neural artistic stylization network (arXiv:1705.06830).
翻訳日:2022-05-07 03:10:59 公開日:2022-05-05
# (参考訳) ペシミズムがvcgと出会う - オフライン強化学習による動的メカニズム設計の学習

Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline Reinforcement Learning ( http://arxiv.org/abs/2205.02450v1 )

ライセンス: CC BY 4.0
Boxiang Lyu and Zhaoran Wang and Mladen Kolar and Zhuoran Yang(参考訳) 近年、動的機構設計はコンピュータ科学者と経済学者の両方から大きな注目を集めている。 エージェントが複数のラウンドで売り手と対話できるようにすることで、エージェントの報酬関数は時間とともに変化し、状態に依存しているため、このフレームワークは現実世界の問題の豊富なクラスをモデル化することができる。 これらの研究において、エージェントと売り手の相互作用は、しばしばマルコフ決定プロセス(MDP)に従うと仮定される。 我々は,このようなMDPの報酬関数と遷移関数が予め分かっていないような設定に着目し,事前収集したデータセットを用いて最適なメカニズムを復元しようとしている。 関数近似を大規模状態空間の処理に用いた場合,関数クラスの表現性に対する軽度な仮定だけで,オフライン強化学習アルゴリズムを用いて動的機構を設計できる。 さらに、学習されたメカニズムは、効率性、個人の合理性、真実性という3つの重要なデシダータを持つ。 我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度の仮定しか必要としない。 我々の知る限り、我々の研究は、一様カバレッジを仮定することなく、動的メカニズム設計のための最初のオフラインRLアルゴリズムを提供する。

Dynamic mechanism design has garnered significant attention from both computer scientists and economists in recent years. By allowing agents to interact with the seller over multiple rounds, where agents' reward functions may change with time and are state dependent, the framework is able to model a rich class of real world problems. In these works, the interaction between agents and sellers are often assumed to follow a Markov Decision Process (MDP). We focus on the setting where the reward and transition functions of such an MDP are not known a priori, and we are attempting to recover the optimal mechanism using an a priori collected data set. In the setting where the function approximation is employed to handle large state spaces, with only mild assumptions on the expressiveness of the function class, we are able to design a dynamic mechanism using offline reinforcement learning algorithms. Moreover, learned mechanisms approximately have three key desiderata: efficiency, individual rationality, and truthfulness. Our algorithm is based on the pessimism principle and only requires a mild assumption on the coverage of the offline data set. To the best of our knowledge, our work provides the first offline RL algorithm for dynamic mechanism design without assuming uniform coverage.
翻訳日:2022-05-07 03:02:45 公開日:2022-05-05
# (参考訳) MMINR:レーダを用いた降雨開始時の耐雑音性を考慮したマルチフレーム・マルチフレーム推論 [全文訳有]

MMINR: Multi-frame-to-Multi -frame Inference with Noise Resistance for Precipitation Nowcasting with Radar ( http://arxiv.org/abs/2205.02457v1 )

ライセンス: CC BY 4.0
Feng Sun, Cong Bai(参考訳) レーダーエコーマップに基づく降水ノキャスティングは気象研究に不可欠である。 近年,畳み込みRNNに基づく手法がこの分野を支配しているが,並列計算では解けないため,推論時間が長くなる。 FCNベースの手法は、この問題を避けるためにマルチフレーム・シングルフレーム推論(MSI)戦略を採用する。 彼らは再びモデルにフィードバックして、予測フェーズでマルチフレームの nowcasting 結果を得るための次のステップを予測します。 さらに,降水騒音は予測不可能であるため,高い予測誤差をもたらす重要な要因である。 この問題に対処するために,MMINR という名前のノイズ抵抗 (NR) を持つ新しいMMIモデルを提案する。 エラーの蓄積を回避し、並列計算における降水ノイズ\の負の効果に抵抗する。 NRはノイズ・ドロップアウト・モジュール(NDM)とセマンティック・リストア・モジュール(SRM)を含んでいる。 NDMは意図的にノイズをドロップアウトするが効率的であり、SRMは特徴のセマンティック情報を補い、NDMが誤って失ったセマンティック情報の問題を緩和する。 実験の結果, 他のSOTAと比較すると, MMINRは競争力のあるスコアが得られることがわかった。 アブレーション実験の結果,提案したNDMとSRMは上記の問題を解くことができることがわかった。

Precipitation nowcasting based on radar echo maps is essential in meteorological research. Recently, Convolutional RNNs based methods dominate this field, but they cannot be solved by parallel computation resulting in longer inference time. FCN based methods adopt a multi-frame-to-singl e-frame inference (MSI) strategy to avoid this problem. They feedback into the model again to predict the next time step to get multi-frame nowcasting results in the prediction phase, which will lead to the accumulation of prediction errors. In addition, precipitation noise is a crucial factor contributing to high prediction errors because of its unpredictability. To address this problem, we propose a novel Multi-frame-to-Multi -frame Inference (MMI) model with Noise Resistance (NR) named MMINR. It avoids error accumulation and resists precipitation noise\'s negative effect in parallel computation. NR contains a Noise Dropout Module (NDM) and a Semantic Restore Module (SRM). NDM deliberately dropout noise simple yet efficient, and SRM supplements semantic information of features to alleviate the problem of semantic information mistakenly lost by NDM. Experimental results demonstrate that MMINR can attain competitive scores compared with other SOTAs. The ablation experiments show that the proposed NDM and SRM can solve the aforementioned problems.
翻訳日:2022-05-07 03:01:21 公開日:2022-05-05
# (参考訳) Alignahead: グラフニューラルネットワークによるオンラインクロス層知識抽出 [全文訳有]

Alignahead: Online Cross-Layer Knowledge Extraction on Graph Neural Networks ( http://arxiv.org/abs/2205.02468v1 )

ライセンス: CC BY 4.0
Jiongyu Guo, Defang Chen, Can Wang(参考訳) グラフニューラルネットワーク(GNN)上の既存の知識蒸留手法はほとんどオフラインであり、学生モデルは強力な教師モデルから知識を抽出し、その性能を向上させる。 しかし、トレーニングコストやプライバシなどのために、事前訓練された教師モデルが常にアクセス可能であるとは限らない。 本稿では,この問題を解決するためのオンライン知識蒸留フレームワークを提案する。 具体的には、各学生gnnモデルは、交互に訓練された他の生徒から抽出された局所構造を学習する。 さらに, 留学生層を他の留学生モデルの異なる深さの層に調整し, 理論的に全層にわたって構造情報を拡散させることにより, クロスレイヤー蒸留戦略を展開する。 PPI、Coauthor-CS/Physics、Amazon-Computer/Phot oを含む5つのデータセットの実験結果は、事前訓練された教師モデルの監督なしに、学生のパフォーマンスが継続的に向上していることを示しています。 また,本手法はモデルの収束速度を向上し,学生数を増大させることで,その効果を全般的に向上させることができることも見いだした。 コード提供: https://github.com/g uojy-eatstg/alignahe ad

Existing knowledge distillation methods on graph neural networks (GNNs) are almost offline, where the student model extracts knowledge from a powerful teacher model to improve its performance. However, a pre-trained teacher model is not always accessible due to training cost, privacy, etc. In this paper, we propose a novel online knowledge distillation framework to resolve this problem. Specifically, each student GNN model learns the extracted local structure from another simultaneously trained counterpart in an alternating training procedure. We further develop a cross-layer distillation strategy by aligning ahead one student layer with the layer in different depth of another student model, which theoretically makes the structure information spread over all layers. Experimental results on five datasets including PPI, Coauthor-CS/Physics and Amazon-Computer/Phot o demonstrate that the student performance is consistently boosted in our collaborative training framework without the supervision of a pre-trained teacher model. In addition, we also find that our alignahead technique can accelerate the model convergence speed and its effectiveness can be generally improved by increasing the student numbers in training. Code is available: https://github.com/G uoJY-eatsTG/Alignahe ad
翻訳日:2022-05-07 02:50:30 公開日:2022-05-05
# (参考訳) dpro:分散dnnトレーニングを迅速化する汎用プロファイリングおよび最適化システム [全文訳有]

dPRO: A Generic Profiling and Optimization System for Expediting Distributed DNN Training ( http://arxiv.org/abs/2205.02473v1 )

ライセンス: CC BY 4.0
Hanpeng Hu, Chenyu Jiang, Yuchen Zhong, Yanghua Peng, Chuan Wu, Yibo Zhu, Haibin Lin, Chuanxiong Guo(参考訳) 複数のデバイス(GPUサーバ)を使用した分散トレーニングは、大規模なデータセット上でDNNモデルを学習するために広く採用されている。 しかし、大規模分散トレーニングの性能は、実際には線形スピードアップには程遠い傾向にある。 分散システムの複雑さを考えると、非効率の根本原因を特定し、予期しない低いトレーニング速度が発生すると効果的なパフォーマンス最適化を実行することが困難である。 現在、パフォーマンスの問題を診断し、分散DNNトレーニングの迅速化を支援するソフトウェアツールは存在しないが、トレーニングは異なる機械学習フレームワークを使用して実行できる。 本稿では,(1)分散DNNトレーニングのランタイムトレースを複数のフレームワーク,特に細粒度通信トレースで収集し,高精度なリプレイのための詳細な通信操作を含むグローバルデータフローグラフを構築する効率的なプロファイラ,(2)パフォーマンスボトルネックを効果的に識別し,トレーニングアクセラレーションのための最適化戦略(計算,通信,メモリ面など)を探索する最適化器を提案する。 複数のディープラーニングフレームワーク(PyTorch,TensorFlow, MXNet)と代表通信スキーム(AllReduce,パラメータサーバアーキテクチャ)にdPROを実装した。 大規模な実験により、dPROは様々な環境での分散トレーニングのパフォーマンスを<5%のエラーで予測し、ベースラインを最大87.1%高速化する最適化戦略を見出した。

Distributed training using multiple devices (i.e., GPU servers) has been widely adopted for learning DNN models over large datasets. However, the performance of large-scale distributed training tends to be far from linear speed-up in practice. Given the complexity of distributed systems, it is challenging to identify the root cause(s) of inefficiency and exercise effective performance optimizations when unexpected low training speed occurs. To date, there exists no software tool which diagnoses performance issues and helps expedite distributed DNN training, while the training can be run using different machine learning frameworks. This paper proposes dPRO, a toolkit that includes: (1) an efficient profiler that collects runtime traces of distributed DNN training across multiple frameworks, especially fine-grained communication traces, and constructs global data flow graphs including detailed communication operations for accurate replay; (2) an optimizer that effectively identifies performance bottlenecks and explores optimization strategies (from computation, communication and memory aspects) for training acceleration. We implement dPRO on multiple deep learning frameworks (PyTorch, TensorFlow, MXNet) and representative communication schemes (AllReduce and Parameter Server architecture). Extensive experiments show that dPRO predicts performance of distributed training in various settings with<5% errors in most cases and finds optimization strategies with up to87.1%speed-up over the baselines.
翻訳日:2022-05-07 02:39:33 公開日:2022-05-05
# (参考訳) 野生における話者認識 [全文訳有]

Speaker Recognition in the Wild ( http://arxiv.org/abs/2205.02475v1 )

ライセンス: CC BY 4.0
Neeraj Chhimwal, Anirudh Gupta, Rishabh Gaur, Harveen Singh Chadha, Priyanshi Shah, Ankur Dhuriya, Vivek Raghavan(参考訳) 本稿では,現在特定されている各話者の話者数と,先行する話者数や話者ラベルが不明な音声データのソースである話者数を求めるパイプラインを提案する。 Indic Languages (https://github.com/ Open-Speech-EkStep/v akyansh-wav2vec2-exp erimentation) における音声認識のためのデータ準備パイプラインの一部としてこのアプローチを使用した。 提案するパイプラインの正確性を理解し,評価するために,クラスタ純度とクラスタ一意性という2つの指標を導入する。 クラスタの純度は、クラスタの“純度”を定量化する。 一方、クラスタ一意性は、クラスタのどの割合が単一の支配的な話者に属するかを測定する。 これらの指標について、セクション \ref{sec:metrics} でさらに議論する。 自動音声認識(asr)モデルをトレーニングする前に、話者idに基づくデータを特定するためのこのユーティリティを開発したので、このデータのほとんどはスクレイピングにかなりの労力がかかります。また、テストセットにおいて、98\%のデータが上位80\%にマッピングされる(一定数の発話数未満のクラスタを削除することで計算されます -- これは、非常に小さなクラスタを取り除き、このしきい値を30として使用するために行います)。

In this paper, we propose a pipeline to find the number of speakers, as well as audios belonging to each of these now identified speakers in a source of audio data where number of speakers or speaker labels are not known a priori. We used this approach as a part of our Data Preparation pipeline for Speech Recognition in Indic Languages (https://github.com/ Open-Speech-EkStep/v akyansh-wav2vec2-exp erimentation). To understand and evaluate the accuracy of our proposed pipeline, we introduce two metrics: Cluster Purity, and Cluster Uniqueness. Cluster Purity quantifies how "pure" a cluster is. Cluster Uniqueness, on the other hand, quantifies what percentage of clusters belong only to a single dominant speaker. We discuss more on these metrics in section \ref{sec:metrics}. Since we develop this utility to aid us in identifying data based on speaker IDs before training an Automatic Speech Recognition (ASR) model, and since most of this data takes considerable effort to scrape, we also conclude that 98\% of data gets mapped to the top 80\% of clusters (computed by removing any clusters with less than a fixed number of utterances -- we do this to get rid of some very small clusters and use this threshold as 30), in the test set chosen.
翻訳日:2022-05-07 02:12:39 公開日:2022-05-05
# (参考訳) FastRE: Convolutional Encoderと改善されたカスケードバイナリタグフレームワークによる高速関係抽出 [全文訳有]

FastRE: Towards Fast Relation Extraction with Convolutional Encoder and Improved Cascade Binary Tagging Framework ( http://arxiv.org/abs/2205.02490v1 )

ライセンス: CC BY 4.0
Guozheng Li and Xu Chen and Peng Wang and Jiafeng Xie and Qiqing Luo(参考訳) テキストから関係を抽出する最近の研究は優れた成果を上げている。 しかし、既存の方法の多くは効率にあまり注意を払わず、現実的なシナリオで大量のテキストデータやストリーミングテキストデータから関係を素早く抽出することは困難である。 主な効率のボトルネックは、エンコーディングにトランスベースの事前学習された言語モデルを使用することで、トレーニング速度と推論速度に大きく影響する。 本稿では,畳み込みエンコーダに基づく高速関係抽出モデル(FastRE)を提案する。 以前の仕事と比較すると、fastreは有望なパフォーマンスを維持しつつ効率を改善するためにいくつかのイノベーションを採用している。 具体的には、FastREは、拡張畳み込み、ゲートユニット、残余接続を組み合わせた新しい畳み込みエンコーダアーキテクチャを採用し、良好な性能を維持しながら、トレーニングと推論の計算コストを大幅に削減する。 さらに、カスケードのバイナリタグ化フレームワークを改善するために、FastREはまず、タグ付け効率を向上し、関係冗長性を緩和するタイプ関連マッピング機構を導入し、次に位置依存適応閾値付け戦略を用いて、より高いタグ付け精度とモデル一般化を実現する。 実験の結果,fastreは効率と性能のバランスが良く,3~10倍のトレーニング速度,7~15倍の推論速度,および最先端モデルと比較して1/100のパラメータを達成できた。

Recent work for extracting relations from texts has achieved excellent performance. However, most existing methods pay less attention to the efficiency, making it still challenging to quickly extract relations from massive or streaming text data in realistic scenarios. The main efficiency bottleneck is that these methods use a Transformer-based pre-trained language model for encoding, which heavily affects the training speed and inference speed. To address this issue, we propose a fast relation extraction model (FastRE) based on convolutional encoder and improved cascade binary tagging framework. Compared to previous work, FastRE employs several innovations to improve efficiency while also keeping promising performance. Concretely, FastRE adopts a novel convolutional encoder architecture combined with dilated convolution, gated unit and residual connection, which significantly reduces the computation cost of training and inference, while maintaining the satisfactory performance. Moreover, to improve the cascade binary tagging framework, FastRE first introduces a type-relation mapping mechanism to accelerate tagging efficiency and alleviate relation redundancy, and then utilizes a position-dependent adaptive thresholding strategy to obtain higher tagging accuracy and better model generalization. Experimental results demonstrate that FastRE is well balanced between efficiency and performance, and achieves 3-10x training speed, 7-15x inference speed faster, and 1/100 parameters compared to the state-of-the-art models, while the performance is still competitive.
翻訳日:2022-05-07 02:06:34 公開日:2022-05-05
# (参考訳) GANベースの形態は顔認識を脅かすか? [全文訳有]

Are GAN-based Morphs Threatening Face Recognition? ( http://arxiv.org/abs/2205.02496v1 )

ライセンス: CC BY 4.0
Eklavya Sarkar, Pavel Korshunov, Laurent Colbois, and S\'ebastien Marcel(参考訳) モーフィング攻撃は生体認証システムにとって脅威であり、生体認証文書内の生体認証参照を変更することができる。 この種の攻撃は、境界セキュリティやアクセス制御といったIDドキュメントに依存するアプリケーションにおいて重要な問題となる。 顔形態の生成とその検出に関する研究は急速に進んでいるが、モーフィング攻撃やオープンソースの検出ツールキットを持つデータセットはごくわずかである。 本稿では,OpenCVとFaceMorpherをベースとした顔のランドマークに依存した2つのデータと,StyleGAN 2を用いて合成形態を生成する2つの形態素攻撃のためのコードを提供することにより,このギャップを埋める。 また、FaceNet、VGG-Face、ArcFace、ISVを含む、最先端の顔認識システムの脆弱性を評価するための広範な実験を行った。 驚くべきことに、この実験は、より視覚的に魅力的ではあるが、StyleGAN 2に基づく形態は、顔のランドマークに基づく単純な形態に見劣りするため、顔認識システムに対する状態に重大な脅威を与えないことを示した。

Morphing attacks are a threat to biometric systems where the biometric reference in an identity document can be altered. This form of attack presents an important issue in applications relying on identity documents such as border security or access control. Research in generation of face morphs and their detection is developing rapidly, however very few datasets with morphing attacks and open-source detection toolkits are publicly available. This paper bridges this gap by providing two datasets and the corresponding code for four types of morphing attacks: two that rely on facial landmarks based on OpenCV and FaceMorpher, and two that use StyleGAN 2 to generate synthetic morphs. We also conduct extensive experiments to assess the vulnerability of four state-of-the-art face recognition systems, including FaceNet, VGG-Face, ArcFace, and ISV. Surprisingly, the experiments demonstrate that, although visually more appealing, morphs based on StyleGAN 2 do not pose a significant threat to the state to face recognition systems, as these morphs were outmatched by the simple morphs that are based facial landmarks.
翻訳日:2022-05-07 01:48:26 公開日:2022-05-05
# (参考訳) ビューラベルは不可欠:マルチビュークラスタリングの多面的相補性に関する研究 [全文訳有]

View-labels Are Indispensable: A Multifacet Complementarity Study of Multi-view Clustering ( http://arxiv.org/abs/2205.02507v1 )

ライセンス: CC BY 4.0
Chuanxing Geng, Aiyang Han, and Songcan Chen(参考訳) 一貫性と相補性は、マルチビュークラスタリング(MVC)を促進する2つの重要な要素である。 近年、一般的なコントラスト学習の導入により、ビューの一貫性学習がMVCでさらに強化され、有望なパフォーマンスを実現した。 しかし、対照的に、ヒルベルト・シュミット独立基準(HSIC)項や独立エンコーダ・デコーダネットワークが通常、ビュー固有の情報を取得するために採用される機能面を除いて、相補性には十分な注意が払われていない。 このことは、ビューの一貫性を維持しつつ、機能、ビューラベル、コントラストの面を含む複数の面から総合的にビューの相補性学習を再考する動機となっている。 我々は経験的にすべてのファセットが相補性学習に寄与していること、特にビューラベルファセットは、通常既存の方法によって無視される。 そこで我々は,多面的な相補性情報,特にビューラベル情報を明示的に埋め込んだ,新規な‘underline{M}ultifacet \underline{C}omplementarity learning framework for \underline{M}ulti-\underline{V}iew \underline{C}lustering(MCMVC)を開発した。 私たちの知る限りでは、ビューの相補的な学習をガイドするためにビューラベルを明示的に使用するのは初めてです。 MCMVCはSOTAベースラインと比較すると、例えば、Caltech101-20のMVC設定を3つの評価基準でそれぞれ5.00\%$と7.00\%$で改善している。

Consistency and complementarity are two key ingredients for boosting multi-view clustering (MVC). Recently with the introduction of popular contrastive learning, the consistency learning of views has been further enhanced in MVC, leading to promising performance. However, by contrast, the complementarity has not received sufficient attention except just in the feature facet, where the Hilbert Schmidt Independence Criterion (HSIC) term or the independent encoder-decoder network is usually adopted to capture view-specific information. This motivates us to reconsider the complementarity learning of views comprehensively from multiple facets including the feature-, view-label- and contrast- facets, while maintaining the view consistency. We empirically find that all the facets contribute to the complementarity learning, especially the view-label facet, which is usually neglected by existing methods. Based on this, we develop a novel \underline{M}ultifacet \underline{C}omplementarity learning framework for \underline{M}ulti-\underline{V}iew \underline{C}lustering (MCMVC), which fuses multifacet complementarity information, especially explicitly embedding the view-label information. To our best knowledge, it is the first time to use view-labels explicitly to guide the complementarity learning of views. Compared with the SOTA baseline, MCMVC achieves remarkable improvements, e.g., by average margins over $5.00\%$ and $7.00\%$ respectively in complete and incomplete MVC settings on Caltech101-20 in terms of three evaluation metrics.
翻訳日:2022-05-07 01:36:41 公開日:2022-05-05
# (参考訳) 1枚の写真に1000語の価値:新しい財布の回収プロセス [全文訳有]

One Picture is Worth a Thousand Words: A New Wallet Recovery Process ( http://arxiv.org/abs/2205.02511v1 )

ライセンス: CC BY 4.0
Herv\'e Chabannne, Vincent Despiegel, Linda Guiga(参考訳) 我々は新しい財布回収プロセスを導入する。 われわれのソリューションは1)視覚パスワードを関連づける:秘密に選択された物体の写真(Chabanne et al., 2013) 2)イメージネット分類器は,画像をバイナリベクトルに変換する。 3) ウォレットシードの視覚的パスワード/検索のための難読化ファジィマッチング(Galbraith and Zobernig, 2019)。 実験の結果,写真による長い種句の置き換えが可能であることがわかった。

We introduce a new wallet recovery process. Our solution associates 1) visual passwords: a photograph of a secretly picked object (Chabanne et al., 2013) with 2) ImageNet classifiers transforming images into binary vectors and, 3) obfuscated fuzzy matching (Galbraith and Zobernig, 2019) for the storage of visual passwords/retrieval of wallet seeds. Our experiments show that the replacement of long seed phrases by a photograph is possible.
翻訳日:2022-05-07 01:20:19 公開日:2022-05-05
# (参考訳) M2R2: 反復データ拡張によるミスモードロバスト感情認識フレームワーク [全文訳有]

M2R2: Missing-Modality Robust emotion Recognition framework with iterative data augmentation ( http://arxiv.org/abs/2205.02524v1 )

ライセンス: CC BY 4.0
Ning Wang(参考訳) 本稿では,会話(ERC)タスクにおける感情認識に不確実なパターンを持つ発話レベルのモダリティの欠如に対処する。 現在のモデルは一般的に、現在の発話と文脈によって話者の感情を予測するが、モダリティの欠如により格段に劣化する。 本研究は,学習された共通表現による反復的データ拡張による感情認識モデルを訓練するフレームワークであるMissing-Modality Robust emotion Recognition (M2R2)を提案する。 まず、PANet(Party Attentive Network)と呼ばれるネットワークは、すべての話者の状態と状況を追跡する感情を分類するために設計されている。 話者と他の参加者との注意機構と対話トピックは、不可能な発話ではなく、マルチタイムおよびマルチパーティ発話への依存を分散化するために使用される。 さらに、モダリティ欠落問題に対して、共通表現学習(CRL)問題を定義する。 逆戦略によって改善されたデータインプテーションメソッドは、データ拡張のための追加機能を構築するために使用される。 2つの異なるデータセットにおけるモダリティミス感情認識におけるベースラインよりも提案手法の有効性を,広範な実験とケーススタディで検証した。

This paper deals with the utterance-level modalities missing problem with uncertain patterns on emotion recognition in conversation (ERC) task. Present models generally predict the speaker's emotions by its current utterance and context, which is degraded by modality missing considerably. Our work proposes a framework Missing-Modality Robust emotion Recognition (M2R2), which trains emotion recognition model with iterative data augmentation by learned common representation. Firstly, a network called Party Attentive Network (PANet) is designed to classify emotions, which tracks all the speakers' states and context. Attention mechanism between speaker with other participants and dialogue topic is used to decentralize dependence on multi-time and multi-party utterances instead of the possible incomplete one. Moreover, the Common Representation Learning (CRL) problem is defined for modality-missing problem. Data imputation methods improved by the adversarial strategy are used here to construct extra features to augment data. Extensive experiments and case studies validate the effectiveness of our methods over baselines for modality-missing emotion recognition on two different datasets.
翻訳日:2022-05-07 01:11:02 公開日:2022-05-05
# (参考訳) YOLOPose:キーポイント回帰を用いたトランスフォーマーベースマルチオブジェクト6次元ポス推定 [全文訳有]

YOLOPose: Transformer-based Multi-Object 6D Pose Estimation using Keypoint Regression ( http://arxiv.org/abs/2205.02536v1 )

ライセンス: CC BY 4.0
Arash Amini, Arul Selvam Periyasamy, Sven Behnke(参考訳) 6dオブジェクトポーズ推定は、自律ロボット操作アプリケーションにとって重要な前提条件である。 ポーズ推定の最先端モデルは畳み込みニューラルネットワーク(CNN)に基づくものである。 近年、自然言語処理のために提案されたアーキテクチャであるTransformersは、多くのコンピュータビジョンタスクでも最先端の結果を達成している。 マルチヘッドセルフアテンション機構を備えるトランスフォーマは、オブジェクト検出と6dオブジェクトポーズ推定を共同で学習するために、単純な1段のエンドツーエンドアーキテクチャを可能にする。 本稿では,キーポイント回帰に基づく多目的6Dポーズ推定手法であるYOLOPose (Short form for You Only Look Once Pose Estimation)を提案する。 画像中のキーポイントを予測するための標準的なヒートマップとは対照的に、キーポイントを直接回帰する。 さらに,学習可能な方向推定モジュールを用いて,キーポイントから方向を予測する。 別個の翻訳推定モジュールとともに、我々のモデルはエンドツーエンドで微分可能である。 提案手法はリアルタイムアプリケーションに適した手法であり,最先端の手法に匹敵する結果が得られる。

6D object pose estimation is a crucial prerequisite for autonomous robot manipulation applications. The state-of-the-art models for pose estimation are convolutional neural network (CNN)-based. Lately, Transformers, an architecture originally proposed for natural language processing, is achieving state-of-the-art results in many computer vision tasks as well. Equipped with the multi-head self-attention mechanism, Transformers enable simple single-stage end-to-end architectures for learning object detection and 6D object pose estimation jointly. In this work, we propose YOLOPose (short form for You Only Look Once Pose estimation), a Transformer-based multi-object 6D pose estimation method based on keypoint regression. In contrast to the standard heatmaps for predicting keypoints in an image, we directly regress the keypoints. Additionally, we employ a learnable orientation estimation module to predict the orientation from the keypoints. Along with a separate translation estimation module, our model is end-to-end differentiable. Our method is suitable for real-time applications and achieves results comparable to state-of-the-art methods.
翻訳日:2022-05-07 00:54:14 公開日:2022-05-05
# (参考訳) ビデオにおけるポートレートのパラメトリックリシェープ [全文訳有]

Parametric Reshaping of Portraits in Videos ( http://arxiv.org/abs/2205.02538v1 )

ライセンス: CC BY 4.0
Xiangjun Tang, Wenxin Sun, Yong-Liang Yang, and Xiaogang Jin(参考訳) 様々なソーシャルメディアネットワークに短いパーソナライズされたビデオを共有することは、近年非常に人気がある。 これにより、ビデオのポートレートのデジタルリタッチの必要性が高まる。 しかし、ポートレートビデオフレームに直接ポートレート画像編集を適用すると、スムーズで安定したビデオシーケンスを生成できない。 この目的のために,映像中の像を再現してスムーズな修正結果を生成する,頑健で使いやすいパラメトリック手法を提案する。 入力されたポートレートビデオは,2つの主要なステージ – 安定した顔再構成と連続的なビデオ再構成 – から構成される。 最初の段階では、ビデオフレーム間の顔剛性ポーズ変換を推定することから始める。 そして、複数のフレームを共同で最適化し、正確な顔のアイデンティティを再構築し、ビデオ全体の表情を復元する。 第2段階では、まず、顔の重量変化を反映したパラメトリック・リフォーミングモデルを用いて再構成された3次元面を再構成し、その後、その形状を変えて映像フレームの変形を誘導する。 我々は, 顔の輪郭間の歪みを最小限の歪みで抑制する, 符号付き距離関数に基づく高密度マッピング法を開発した。 さらに,顔の3次元構造を用いて高密度マッピングを補正し,時間的一貫性を実現する。 コンテンツ認識型ワーピングメッシュを最適化することで,背景歪みを最小化することで最終結果を生成する。 広範な実験により,ソーシャルメディアや視覚効果のポートレート映像編集を容易にするシンプルなリシェーピングパラメータを調整することにより,視覚的に満足できる結果が得られた。

Sharing short personalized videos to various social media networks has become quite popular in recent years. This raises the need for digital retouching of portraits in videos. However, applying portrait image editing directly on portrait video frames cannot generate smooth and stable video sequences. To this end, we present a robust and easy-to-use parametric method to reshape the portrait in a video to produce smooth retouched results. Given an input portrait video, our method consists of two main stages: stabilized face reconstruction, and continuous video reshaping. In the first stage, we start by estimating face rigid pose transformations across video frames. Then we jointly optimize multiple frames to reconstruct an accurate face identity, followed by recovering face expressions over the entire video. In the second stage, we first reshape the reconstructed 3D face using a parametric reshaping model reflecting the weight change of the face, and then utilize the reshaped 3D face to guide the warping of video frames. We develop a novel signed distance function based dense mapping method for the warping between face contours before and after reshaping, resulting in stable warped video frames with minimum distortions. In addition, we use the 3D structure of the face to correct the dense mapping to achieve temporal consistency. We generate the final result by minimizing the background distortion through optimizing a content-aware warping mesh. Extensive experiments show that our method is able to create visually pleasing results by adjusting a simple reshaping parameter, which facilitates portrait video editing for social media and visual effects.
翻訳日:2022-05-07 00:43:04 公開日:2022-05-05
# (参考訳) 文字のリアルタイム制御可能な動き遷移 [全文訳有]

Real-time Controllable Motion Transition for Characters ( http://arxiv.org/abs/2205.02540v1 )

ライセンス: CC BY 4.0
Xiangjun Tang, He Wang, Bo Hu, Xu Gong, Ruifan Yi, Qilong Kou, Xiaogang Jin(参考訳) リアルタイムのモーション生成はゲームでは普遍的に必要であり、既存のアニメーションパイプラインでは非常に望ましい。 品質、制御可能性、速度の3つの重要な条件を同時に満たさなければならない。オフラインの計算(あるいは後処理)が必要なメソッドをレンダリングしたり、望ましくないユーザコントロール(予測不能なものが多い)を組み込むことができない。 そこで本稿では,上記の課題に対処する新たなリアルタイム移行手法を提案する。 我々のアプローチは運動多様体と条件遷移という2つの重要な構成要素から構成される。 前者は重要な低レベル運動特徴とそのダイナミクスを学習し、後者は目標フレームと所望の遷移期間で条件付き遷移を合成する。 まず、マルチモーダルマッピング機構を用いて、人間の動きの内在的遷移確率を明示的にモデル化する運動多様体を学習する。 そして,生成期間中に,対象のフレームと目的の遷移期間に基づいて,学習した多様体からサンプルをサンプリングする手法である遷移モデルを設計する。 処理後やオフラインの計算が許可されていないタスクの異なるデータセット上で,提案手法を検証する。 本手法は, 徹底的な評価と比較を行い, 複数の測定値で測定した高品質な動作を生成できることを示す。 また,本手法は様々な対象フレーム(極端な場合)において頑健である。

Real-time in-between motion generation is universally required in games and highly desirable in existing animation pipelines. Its core challenge lies in the need to satisfy three critical conditions simultaneously: quality, controllability and speed, which renders any methods that need offline computation (or post-processing) or cannot incorporate (often unpredictable) user control undesirable. To this end, we propose a new real-time transition method to address the aforementioned challenges. Our approach consists of two key components: motion manifold and conditional transitioning. The former learns the important low-level motion features and their dynamics; while the latter synthesizes transitions conditioned on a target frame and the desired transition duration. We first learn a motion manifold that explicitly models the intrinsic transition stochasticity in human motions via a multi-modal mapping mechanism. Then, during generation, we design a transition model which is essentially a sampling strategy to sample from the learned manifold, based on the target frame and the aimed transition duration. We validate our method on different datasets in tasks where no post-processing or offline computation is allowed. Through exhaustive evaluation and comparison, we show that our method is able to generate high-quality motions measured under multiple metrics. Our method is also robust under various target frames (with extreme cases).
翻訳日:2022-05-07 00:28:36 公開日:2022-05-05
# (参考訳) インデックス言語のためのOCR合成ベンチマークデータセット

OCR Synthetic Benchmark Dataset for Indic Languages ( http://arxiv.org/abs/2205.02543v1 )

ライセンス: CC BY 4.0
Naresh Saini, Promodh Pinto, Aravinth Bheemaraj, Deepak Kumar, Dhiraj Daga, Saurabh Yadav and Srihari Nagaraj(参考訳) Indic言語用のOCRベンチマークデータセットとしては最大である。 コレクションには合計90kの画像と23のIndic言語に関する基礎的な真実が含まれている。 Indic言語におけるOCRモデルの検証には、堅牢で信頼性の高いモデルを作成するために、大量の多様なデータを処理する必要がある。 このような膨大な量のデータを生成することは難しいが、合成データを使えば、はるかに簡単になる。 コンピュータビジョンや画像処理といった分野において、最初の合成データが開発されれば、モデルの作成が容易になります。 合成データの生成には、モデルの性能を向上させるために、その性質と環境を必要に応じて調整する柔軟性が伴う。 ラベル付きリアルタイムデータの精度は非常に高くつくが、合成データの精度は良いスコアで容易に達成できる。

We present the largest publicly available synthetic OCR benchmark dataset for Indic languages. The collection contains a total of 90k images and their ground truth for 23 Indic languages. OCR model validation in Indic languages require a good amount of diverse data to be processed in order to create a robust and reliable model. Generating such a huge amount of data would be difficult otherwise but with synthetic data, it becomes far easier. It can be of great importance to fields like Computer Vision or Image Processing where once an initial synthetic data is developed, model creation becomes easier. Generating synthetic data comes with the flexibility to adjust its nature and environment as and when required in order to improve the performance of the model. Accuracy for labeled real-time data is sometimes quite expensive while accuracy for synthetic data can be easily achieved with a good score.
翻訳日:2022-05-06 23:54:54 公開日:2022-05-05
# (参考訳) ウェールズ語テキスト要約データセットとベースラインシステムの導入 [全文訳有]

Introducing the Welsh Text Summarisation Dataset and Baseline Systems ( http://arxiv.org/abs/2205.02545v1 )

ライセンス: CC BY 4.0
Ignatius Ezeani and Mahmoud El-Haj and Jonathan Morris and Dawn Knight(参考訳) ウェールズ語はウェールズの公用語であり、推定884,300人(ウェールズの人口の29.2%)が話されている。 この地位と2011年の国勢調査以来の話者数の増加にもかかわらず、ウェールズはウェールズ政府および関連する利害関係者による活性化と促進を受けている少数言語である。 ウェールズ語デジタル技術の利用性を高める取り組みの一環として,本論文では,ウェールズ語テキストの要約作業を進めるために,研究目的で無償で提供される最初のウェールズ語要約データセットについて紹介する。 このデータセットはウェールズ語話者によって、ウェールズ語版ウィキペディアの記事を手作業で要約して作成された。 さらに,ウェールズ語における様々な要約システムの実装と評価について論じる。 要約システムと結果は、他の少数言語の文脈における要約の開発のためのベンチマークとして機能する。

Welsh is an official language in Wales and is spoken by an estimated 884,300 people (29.2% of the population of Wales). Despite this status and estimated increase in speaker numbers since the last (2011) census, Welsh remains a minority language undergoing revitalization and promotion by Welsh Government and relevant stakeholders. As part of the effort to increase the availability of Welsh digital technology, this paper introduces the first Welsh summarisation dataset, which we provide freely for research purposes to help advance the work on Welsh text summarization. The dataset was created by Welsh speakers by manually summarising Welsh Wikipedia articles. In addition, the paper discusses the implementation and evaluation of different summarisation systems for Welsh. The summarization systems and results will serve as benchmarks for the development of summarises in other minority language contexts.
翻訳日:2022-05-06 23:50:23 公開日:2022-05-05
# (参考訳) コンピュータビジョンのための生物学的にインスパイアされた深層ネットワーク [全文訳有]

Biologically inspired deep residual networks for computer vision applications ( http://arxiv.org/abs/2205.02551v1 )

ライセンス: CC BY 4.0
Prathibha Varghese and Dr. G. Arockia Selva Saroja(参考訳) ディープニューラルネットワークは、困難で活発に研究されているコンピュータビジョンタスクの分野で重要な技術として確立されている。 さらに、古典的ResNetは最先端の畳み込みニューラルネットワーク(CNN)であり、優れた一般化能力を持つ特徴を捉えるために観測された。 そこで本研究では,六角形畳み込みをスキップ接続に沿って導入する,生物学的にインスパイアされた深部ニューラルネットワークを提案する。 正方形および六角形畳み込みを用いた異なるResNet変種の性能を[1]で述べた競争訓練戦略を用いて評価した。 提案手法では,CIFAR-10上のバニラResNetアーキテクチャのベースライン画像分類精度が向上し,ImageNet 2012データセットの複数のサブセットで同じことが観測された。 ImageNet 2012 と CIFAR-10 のベースライントップ1 の精度は平均 1.35% と 0.48% 向上した。 提案する生物学的にインスパイアされた深層残差ネットワークは、一般化された性能を向上し、最先端画像分類ネットワークの識別能力を向上させる潜在的研究方向である可能性が示唆された。

Deep neural network has been ensured as a key technology in the field of many challenging and vigorously researched computer vision tasks. Furthermore, classical ResNet is thought to be a state-of-the-art convolutional neural network (CNN) and was observed to capture features which can have good generalization ability. In this work, we propose a biologically inspired deep residual neural network where the hexagonal convolutions are introduced along the skip connections. The performance of different ResNet variants using square and hexagonal convolution are evaluated with the competitive training strategy mentioned by [1]. We show that the proposed approach advances the baseline image classification accuracy of vanilla ResNet architectures on CIFAR-10 and the same was observed over multiple subsets of the ImageNet 2012 dataset. We observed an average improvement by 1.35% and 0.48% on baseline top-1 accuracies for ImageNet 2012 and CIFAR-10, respectively. The proposed biologically inspired deep residual networks were observed to have improved generalized performance and this could be a potential research direction to improve the discriminative ability of state-of-the-art image classification networks.
翻訳日:2022-05-06 23:37:50 公開日:2022-05-05
# (参考訳) DropTrack -- マイクロ流体アプリケーションのためのディープラーニングを用いた自動液滴追跡 [全文訳有]

DropTrack -- automatic droplet tracking using deep learning for microfluidic applications ( http://arxiv.org/abs/2205.02568v1 )

ライセンス: CC BY 4.0
Mihir Durve, Adriano Tiribocchi, Fabio Bonaccorso, Andrea Montessori, Marco Lauricella, Michal Bogdan, Jan Guzowski, Sauro Succi(参考訳) 深層ニューラルネットワークはデータ分析ツールとして急速に普及しており、複雑なマイクロ流体システムで使用される従来の手法よりも優れていることが多い。 マイクロ流体実験でしばしば望まれる基本的な分析の一つは、液滴の数え上げと追跡である。 特に高密度エマルションにおける液滴追跡は, 密充填状態での液滴移動が困難である。 これらの密集したクラスター内の個々の液滴は、人間の観察者でさえ解決しにくいことがある。 ここでは、オブジェクト検出(YOLO)とオブジェクト追跡(DeepSORT)の2つのディープラーニングベースの最先端アルゴリズムを1つの画像解析ツールDropTrackに統合し、マイクロ流体実験における滴の追跡を行う。 DropTrackは入力ビデオを分析し、ドロップレットのトラジェクトリを抽出し、ドロップレット番号などの他のオブザーバビリティーを推論する。 手動のアノテート画像による滴認識のためのオブジェクト検出ネットワークのトレーニングは、労働集約的な作業であり、永続的なボトルネックである。 この研究は、オブジェクト検出ネットワーク(YOLOv5)を実画像と合成画像を含むハイブリッドデータセットでトレーニングすることで、この問題を部分的に解決する。 そこで本研究では,DropTrackの性能測定のための二重エマルション実験の分析を行った。 テストケースでは、60パーセントの合成画像でトレーニングしたYOLOネットワークは、100%の実画像でトレーニングしたものと同様、ドロップレットカウントで同様の性能を示し、一方、画像アノテーションの動作を60%削減した。 DropTrackのパフォーマンスは平均平均精度(mAP)、平均2乗誤差、推測速度で測定される。 DropTrackの最も高速な構成は毎秒約30フレームで、リアルタイム画像解析の標準の範囲内である。

Deep neural networks are rapidly emerging as data analysis tools, often outperforming the conventional techniques used in complex microfluidic systems. One fundamental analysis frequently desired in microfluidic experiments is counting and tracking the droplets. Specifically, droplet tracking in dense emulsions is challenging as droplets move in tightly packed configurations. Sometimes the individual droplets in these dense clusters are hard to resolve, even for a human observer. Here, two deep learning-based cutting-edge algorithms for object detection (YOLO) and object tracking (DeepSORT) are combined into a single image analysis tool, DropTrack, to track droplets in microfluidic experiments. DropTrack analyzes input videos, extracts droplets' trajectories, and infers other observables of interest, such as droplet numbers. Training an object detector network for droplet recognition with manually annotated images is a labor-intensive task and a persistent bottleneck. This work partly resolves this problem by training object detector networks (YOLOv5) with hybrid datasets containing real and synthetic images. We present an analysis of a double emulsion experiment as a case study to measure DropTrack's performance. For our test case, the YOLO networks trained with 60% synthetic images show similar performance in droplet counting as with the one trained using 100% real images, meanwhile saving the image annotation work by 60%. DropTrack's performance is measured in terms of mean average precision (mAP), mean square error in counting the droplets, and inference speed. The fastest configuration of DropTrack runs inference at about 30 frames per second, well within the standards for real-time image analysis.
翻訳日:2022-05-06 23:27:03 公開日:2022-05-05
# (参考訳) WDV:Wikidataから構築された、幅広いデータバーバリゼーションデータセット [全文訳有]

WDV: A Broad Data Verbalisation Dataset Built from Wikidata ( http://arxiv.org/abs/2205.02627v1 )

ライセンス: CC0 1.0
Gabriel Amaral, Odinaldo Rodrigues, Elena Simperl(参考訳) データ言語化は、自然言語処理の現在の分野において非常に重要なタスクであり、豊富な構造化された半構造化されたデータから可読なフォーマットへの変換には大きなメリットがあります。 verbalising knowledge graph (kg) のデータは、主題、述語、オブジェクトからなる相互接続されたトリプルベースクレームをテキストに変換することに重点を置いている。 KG動詞化データセットはいくつかのKGに対して存在するが、多くのシナリオで使用するための適合性にはまだギャップがある。 これはWikidataにとって特に当てはまります。利用可能なデータセットは、テキスト情報とクレームセットを疎結合するか、伝記や都市、国に関する述語に重点を置いています。 これらのギャップに対処するために、ウィキデータから構築された大きなkgクレームの言語化データセットであるwdvを提案し、三重項とテキストを密結合し、さまざまなエンティティと述語をカバーする。 また,人間中心の流速と精度を計測する再利用可能なワークフローを通じて,発話の質を評価する。 我々のデータとコードは、KG言語化研究をさらに進めるために、公開されています。

Data verbalisation is a task of great importance in the current field of natural language processing, as there is great benefit in the transformation of our abundant structured and semi-structured data into human-readable formats. Verbalising Knowledge Graph (KG) data focuses on converting interconnected triple-based claims, formed of subject, predicate, and object, into text. Although KG verbalisation datasets exist for some KGs, there are still gaps in their fitness for use in many scenarios. This is especially true for Wikidata, where available datasets either loosely couple claim sets with textual information or heavily focus on predicates around biographies, cities, and countries. To address these gaps, we propose WDV, a large KG claim verbalisation dataset built from Wikidata, with a tight coupling between triples and text, covering a wide variety of entities and predicates. We also evaluate the quality of our verbalisations through a reusable workflow for measuring human-centred fluency and adequacy scores. Our data and code are openly available in the hopes of furthering research towards KG verbalisation.
翻訳日:2022-05-06 23:16:00 公開日:2022-05-05
# (参考訳) 効率的だが競争力のある音声翻訳:fbk@iwslt2022 [全文訳有]

Efficient yet Competitive Speech Translation: FBK@IWSLT2022 ( http://arxiv.org/abs/2205.02629v1 )

ライセンス: CC BY-SA 4.0
Marco Gaido, Sara Papi, Dennis Fucci, Giuseppe Fiameni, Matteo Negri, Marco Turchi(参考訳) このfbkのシステムがiwslt 2022のオフラインおよび同時翻訳タスクに提出する主な目的は、翻訳品質を犠牲にすることなくモデルのトレーニングコストを削減することである。 そこで,我々はまず,ASR事前学習の必要性を疑問視し,競争結果を達成することが不可欠ではないことを示す。 次に,データフィルタリングに焦点をあて,ソースとターゲット文字の比率を調べる単純な手法が1BLEUの品質向上をもたらすことを示す。 第3に,音声セグメンテーションミスマッチが文レベルで手作業で区切られたトレーニングデータと,自動セグメンテーションされる推論データとの間に生じる悪影響を低減するために,異なる手法を比較した。 トレーニングコストの削減という同じ目標に向けて、我々は、オフラインSTでトレーニングした同じモデルを用いた同時作業に参加し、MST-C en-de corpus (26.7 BLEU) で得られた高得点を用いて、我々の軽量トレーニング戦略の有効性を示し、昨年の入賞システムにおけるIWSLT2020テストの1.6 BLEU改善により、高リソースデータ条件で確認した。

The primary goal of this FBK's systems submission to the IWSLT 2022 offline and simultaneous speech translation tasks is to reduce model training costs without sacrificing translation quality. As such, we first question the need of ASR pre-training, showing that it is not essential to achieve competitive results. Second, we focus on data filtering, showing that a simple method that looks at the ratio between source and target characters yields a quality improvement of 1 BLEU. Third, we compare different methods to reduce the detrimental effect of the audio segmentation mismatch between training data manually segmented at sentence level and inference data that is automatically segmented. Towards the same goal of training cost reduction, we participate in the simultaneous task with the same model trained for offline ST. The effectiveness of our lightweight training strategy is shown by the high score obtained on the MuST-C en-de corpus (26.7 BLEU) and is confirmed in high-resource data conditions by a 1.6 BLEU improvement on the IWSLT2020 test set over last year's winning system.
翻訳日:2022-05-06 22:56:46 公開日:2022-05-05
# (参考訳) 多スケールグラフニューラルネットワークによる環境流体力学の高速シミュレーションに向けて [全文訳有]

Towards Fast Simulation of Environmental Fluid Mechanics with Multi-Scale Graph Neural Networks ( http://arxiv.org/abs/2205.02637v1 )

ライセンス: CC BY 4.0
Mario Lino, Stathi Fotiadis, Anil A. Bharath and Chris Cantwell(参考訳) 数値シミュレータは自然流体系の研究において必須のツールであるが、その性能はしばしば応用を制限している。 最近の機械学習のアプローチでは、時空間予測を適度な精度で加速する能力が実証されている。 本稿では,長さスケールと複雑な境界ジオメトリを包含する問題における非定常連続体力学を推測するための,新しい多スケールグラフニューラルネットワークモデルであるmulti-scalegnnを紹介する。 本手法は, 海洋および大気プロセスの基本的な現象である, 対流問題と非圧縮性流体力学について実証する。 以上の結果から,新しい領域ジオメトリとパラメータの長期的時間シミュレーションへの応用が示唆された。 マルチスケールgnnで得られたシミュレーションは、訓練されたシミュレーションよりも2桁から4桁早い。

Numerical simulators are essential tools in the study of natural fluid-systems, but their performance often limits application in practice. Recent machine-learning approaches have demonstrated their ability to accelerate spatio-temporal predictions, although, with only moderate accuracy in comparison. Here we introduce MultiScaleGNN, a novel multi-scale graph neural network model for learning to infer unsteady continuum mechanics in problems encompassing a range of length scales and complex boundary geometries. We demonstrate this method on advection problems and incompressible fluid dynamics, both fundamental phenomena in oceanic and atmospheric processes. Our results show good extrapolation to new domain geometries and parameters for long-term temporal simulations. Simulations obtained with MultiScaleGNN are between two and four orders of magnitude faster than those on which it was trained.
翻訳日:2022-05-06 22:36:43 公開日:2022-05-05
# (参考訳) PyDaddy: 時系列データから確率的動的方程式を発見するPythonパッケージ [全文訳有]

PyDaddy: A Python package for discovering stochastic dynamical equations from timeseries data ( http://arxiv.org/abs/2205.02645v1 )

ライセンス: CC BY-SA 4.0
Arshed Nabeel, Ashwin Karichannavar, Shuaib Palathingal, Jitesh Jhawar, Danny Raj M, Vishwesha Guttal(参考訳) 生態系のダイナミクスから集合動物運動まで、ほとんどの現実世界の生態力学は本質的に確率的である。 確率微分方程式(SDE)は、固有ランダム性を持つ力学をモデル化するための一般的なモデリングフレームワークである。 ここでは、ある興味あるシステムから経験的に測定された時系列データがある場合、データを最もよく記述するSDEモデルを見つけることは可能か、という逆問題に焦点をあてる。 本稿では,時系列データに基づく解釈可能なSDEモデルの構築と解析を行うツールボックスであるPyDaddy(DAta Driven DYnamics用Pythonライブラリ)について述べる。 データ駆動型SDE再構成の従来のアプローチと方程式学習のアプローチを組み合わせて、確率力学を規定する記号方程式を導出する。 ツールキットはオープンソースのPythonライブラリとして提示され、SDEの構築と分析のためのツールで構成されている。 機能は、データの確率構造を視覚的に調べ、SDEの機能形式をガイドした抽出、基礎となる仮定と抽出されたモデルの診断とデバッギングに含まれる。 シミュレーションされた時系列データセットを用いて、幅広いダイナミックスを示すことにより、PyDaddyは基礎となるSDEモデルを正しく識別できることを示す。 本研究では,魚学校の運動データを用いて,実世界データへのツールキットの適用性を示す。 学校における観察された分極の時系列から始め、pyDaddy はグループ分極のダイナミクスを管理する SDE モデルを容易に発見する。 PyDaddyが回収したモデルは、以前の研究と一致している。 要約すると、確率的およびノイズによる影響は、多くの生物学的システムのダイナミクスの中心である。 本稿では,時系列データからsdesを再構成する簡易パッケージを提案する。

Most real-world ecological dynamics, ranging from ecosystem dynamics to collective animal movement, are inherently stochastic in nature. Stochastic differential equations (SDEs) are a popular modelling framework to model dynamics with intrinsic randomness. Here, we focus on the inverse question: If one has empirically measured time-series data from some system of interest, is it possible to discover the SDE model that best describes the data. Here, we present PyDaddy (PYthon library for DAta Driven DYnamics), a toolbox to construct and analyze interpretable SDE models based on time-series data. We combine traditional approaches for data-driven SDE reconstruction with an equation learning approach, to derive symbolic equations governing the stochastic dynamics. The toolkit is presented as an open-source Python library, and consists of tools to construct and analyze SDEs. Functionality is included for visual examination of the stochastic structure of the data, guided extraction of the functional form of the SDE, and diagnosis and debugging of the underlying assumptions and the extracted model. Using simulated time-series datasets, exhibiting a wide range of dynamics, we show that PyDaddy is able to correctly identify underlying SDE models. We demonstrate the applicability of the toolkit to real-world data using a previously published movement data of a fish school. Starting from the time-series of the observed polarization of the school, pyDaddy readily discovers the SDE model governing the dynamics of group polarization. The model recovered by PyDaddy is consistent with the previous study. In summary, stochastic and noise-induced effects are central to the dynamics of many biological systems. In this context, we present an easy-to-use package to reconstruct SDEs from timeseries data.
翻訳日:2022-05-06 22:23:43 公開日:2022-05-05
# (参考訳) 共同学習はプライベートで堅牢でスケーラブルか? [全文訳有]

Can collaborative learning be private, robust and scalable? ( http://arxiv.org/abs/2205.02652v1 )

ライセンス: CC BY 4.0
Dmitrii Usynin, Helena Klause, Daniel Rueckert, Georgios Kaissis(参考訳) 列車および推論時攻撃におけるモデルに対する頑健性を改善するために, 差分プライバシー, モデル圧縮, および対人訓練を組み合わせることの有効性を検討する。 我々は,これらの手法の応用とそれらの組み合わせについて検討し,有効なトレードオフを伴わずに,どの手法が最適かを判断する。 本研究は, モデル性能の競争力, モデルサイズの大幅な削減, 性能低下を伴わない経験的対向ロバスト性の向上を実現するための, 様々な手法の実際的な概要を提供する。

We investigate the effectiveness of combining differential privacy, model compression and adversarial training to improve the robustness of models against adversarial samples in train- and inference-time attacks. We explore the applications of these techniques as well as their combinations to determine which method performs best, without a significant utility trade-off. Our investigation provides a practical overview of various methods that allow one to achieve a competitive model performance, a significant reduction in model's size and an improved empirical adversarial robustness without a severe performance degradation.
翻訳日:2022-05-06 21:58:30 公開日:2022-05-05
# (参考訳) 言語モデル:テキスト生成における視覚制御の追加 [全文訳有]

Language Models Can See: Plugging Visual Controls in Text Generation ( http://arxiv.org/abs/2205.02655v1 )

ライセンス: CC BY 4.0
Yixuan Su and Tian Lan and Yahui Liu and Fangyu Liu and Dani Yogatama and Yan Wang and Lingpeng Kong and Nigel Collier(参考訳) GPT-2/3のような生成言語モデル(LM)は、顕著な品質のテキストを生成するよう促すことができる。 テキストプロンプト生成のために設計されているが、生成プロセスが画像などのテキストを超えたモダリティによってどのようにガイドされるのかは、未解決のままである。 本稿では,生成過程において視覚制御をプラグインし,マルチモーダルタスク(例えば,画像キャプション)をゼロショットで実行可能にする,magic(image-guided text generation with clip)と呼ばれるトレーニングフリーなフレームワークを提案する。 MAGICは、既製のLM(GPT-2)と画像基底テキスト生成のための画像テキストマッチングモデル(CLIP)を直接結合した、シンプルで効率的なプラグアンドプレイフレームワークである。 復号中、マジックは、マジックスコアと呼ばれるクリップ誘発スコアを導入することでlmの生成に影響を与え、生成された結果が予め生成されたコンテキストに一貫性を持ちながら、所定の画像に意味的に関連づけられるように規則化する。 特に、提案した復号方式は勾配更新操作を一切含まないため、計算効率がよい。 ゼロショット画像キャプションの課題に対して、MAGICは最先端の手法を顕著なマージンで上回り、27倍のデコードスピードアップを達成している。 MAGICは柔軟なフレームワークであり、画像グラウンドを組み込んだテキスト生成タスクと理論的に互換性がある。 実験では、画像とテキストのプロンプトの両方から視覚的に接地されたストーリー生成を行うこともできることを示した。

Generative language models (LMs) such as GPT-2/3 can be prompted to generate text with remarkable quality. While they are designed for text-prompted generation, it remains an open question how the generation process could be guided by modalities beyond text such as images. In this work, we propose a training-free framework, called MAGIC (iMAge-Guided text generatIon with CLIP), for plugging in visual controls in the generation process and enabling LMs to perform multimodal tasks (e.g., image captioning) in a zero-shot manner. MAGIC is a simple yet efficient plug-and-play framework, which directly combines an off-the-shelf LM (i.e., GPT-2) and an image-text matching model (i.e., CLIP) for image-grounded text generation. During decoding, MAGIC influences the generation of the LM by introducing a CLIP-induced score, called magic score, which regularizes the generated result to be semantically related to a given image while being coherent to the previously generated context. Notably, the proposed decoding scheme does not involve any gradient update operation, therefore being computationally efficient. On the challenging task of zero-shot image captioning, MAGIC outperforms the state-of-the-art method by notable margins with a nearly 27 times decoding speedup. MAGIC is a flexible framework and is theoretically compatible with any text generation tasks that incorporate image grounding. In the experiments, we showcase that it is also capable of performing visually grounded story generation given both an image and a text prompt.
翻訳日:2022-05-06 21:49:01 公開日:2022-05-05
# (参考訳) クロスモーダルシーケンシャルデータにおける教師なしミスマッチ局在 [全文訳有]

Unsupervised Mismatch Localization in Cross-Modal Sequential Data ( http://arxiv.org/abs/2205.02670v1 )

ライセンス: CC BY 4.0
Wei Wei, Huang Hengguan, Gu Xiangming, Wang Hao, Wang Ye(参考訳) コンテンツのミスマッチは通常、あるモダリティからのデータが別のモダリティに翻訳されたときに発生する。例えば、言語学習者が文(ターゲットテキスト)を声高に読む際に、誤用(発話の誤り)を引き起こす。 しかし、既存のアライメントアルゴリズムの多くは、2つのモダリティに関連する内容が完全に一致すると仮定しており、音声とテキストのミスマッチを見つけるのが困難である。 本研究では,コンテンツミスマッチしたクロスモーダルシーケンシャルデータ,特に音声テキスト列の関係を推定する教師なし学習アルゴリズムを開発した。 具体的には,言語生成過程を階層的に構造化された潜在変数に分解し,両者の関係を示す,ミスマッチ局所化変分自動符号化(ML-VAE)という階層型ベイズディープラーニングモデルを提案する。 このようなモデルのトレーニングは、複雑な依存関係を持つ離散的潜在変数のため、非常に難しい。 本稿では,ニューラルネットワークのパラメータを動的に更新し,離散潜在変数の厳密な割り当てを特定の格子上で推定する,新しい効果的なトレーニング手法を提案する。 実験の結果,ML-VAEは人間のアノテーションを必要とせず,テキストと音声のミスマッチの特定に成功した。

Content mismatch usually occurs when data from one modality is translated to another, e.g. language learners producing mispronunciations (errors in speech) when reading a sentence (target text) aloud. However, most existing alignment algorithms assume the content involved in the two modalities is perfectly matched and thus leading to difficulty in locating such mismatch between speech and text. In this work, we develop an unsupervised learning algorithm that can infer the relationship between content-mismatched cross-modal sequential data, especially for speech-text sequences. More specifically, we propose a hierarchical Bayesian deep learning model, named mismatch localization variational autoencoder (ML-VAE), that decomposes the generative process of the speech into hierarchically structured latent variables, indicating the relationship between the two modalities. Training such a model is very challenging due to the discrete latent variables with complex dependencies involved. We propose a novel and effective training procedure which estimates the hard assignments of the discrete latent variables over a specifically designed lattice and updates the parameters of neural networks alternatively. Our experimental results show that ML-VAE successfully locates the mismatch between text and speech, without the need for human annotations for model training.
翻訳日:2022-05-06 21:23:20 公開日:2022-05-05
# (参考訳) 乱れと局所公正表現について [全文訳有]

On Disentangled and Locally Fair Representations ( http://arxiv.org/abs/2205.02673v1 )

ライセンス: CC BY 4.0
Yaron Gurovich, Sagie Benaim, Lior Wolf(参考訳) 人種や性別などのセンシティブなグループに対して公平な方法で分類を行うという課題について検討する。 この問題は、アンタングルおよび局所フェア表現のレンズを通して取り組まれる。 局所的に公平な表現を学習し、学習された表現の下では、各サンプルの近傍が敏感な属性の観点でバランスをとる。 例えば、個人を雇う決定が下された場合、最も類似した雇用された個人が人種的にバランスをとることを保証します。 重要なことは、類似した個人が彼らの人種と相関しない属性に基づいて発見されることを保証する。 この目的のために、埋め込み空間を2つの表現に分解する。 第1は機密属性と相関するが、第2は関連しない。 局所フェアネスの目的を2番目の非相関表現にのみ適用する。 一連の実験を通じて,公平かつ正確な表現を得るためには,不連続と局所的公平の両方の必要性を実証する。 本手法は実世界において所得予測や再収容率などの評価を行い,その利点を実証する。

We study the problem of performing classification in a manner that is fair for sensitive groups, such as race and gender. This problem is tackled through the lens of disentangled and locally fair representations. We learn a locally fair representation, such that, under the learned representation, the neighborhood of each sample is balanced in terms of the sensitive attribute. For instance, when a decision is made to hire an individual, we ensure that the $K$ most similar hired individuals are racially balanced. Crucially, we ensure that similar individuals are found based on attributes not correlated to their race. To this end, we disentangle the embedding space into two representations. The first of which is correlated with the sensitive attribute while the second is not. We apply our local fairness objective only to the second, uncorrelated, representation. Through a set of experiments, we demonstrate the necessity of both disentangled and local fairness for obtaining fair and accurate representations. We evaluate our method on real-world settings such as predicting income and re-incarceration rate and demonstrate the advantage of our method.
翻訳日:2022-05-06 21:07:06 公開日:2022-05-05
# (参考訳) 三球スイマーの化学受容と走走性 [全文訳有]

Chemoreception and chemotaxis of a three-sphere swimmer ( http://arxiv.org/abs/2205.02678v1 )

ライセンス: CC BY-SA 4.0
Stevens Paz, Roberto F. Ausas, Juan P. Carbajal, Gustavo C. Buscaglia(参考訳) Najafi-Golestanian 3球スイマーの流体力学と溶質輸送の結合問題について検討し、レイノルズ数は0に、P'eclet number (Pe) は0.06から60に設定された。 本手法は,FEniCSライブラリに基づく有限要素符号による問題の数値シミュレーションである。 最適な移動歩行を行うスイマーに対しては,同種流体中でのPeの関数としてSherwood番号を報告し,Peが10より大きくない限り溶質フラックスの利得がほとんどないことを確認した。 また, スイマーは濃度勾配を有する流体の中を移動する学習エージェントであると考える。 q-learningプロセスの結果から,運動の学習(転位を報酬として)は,遊走の学習(溶質フラックスを報酬として増す)よりも有意に容易であることが示された。 ケモトキシー問題は、低いpeでも、学習をより困難にする様々な環境を持つ。 さらに、学習難易度はp\'eclet数で著しく増加する。 その結果, 自然および人工の水泳選手は, 化学的不均一性にさらされた場合, 効率的に遊泳するために必要な課題が明らかになった。

The coupled problem of hydrodynamics and solute transport for the Najafi-Golestanian three-sphere swimmer is studied, with the Reynolds number set to zero and P\'eclet numbers (Pe) ranging from 0.06 to 60. The adopted method is the numerical simulation of the problem with a finite element code based upon the FEniCS library. For the swimmer executing the optimal locomotion gait, we report the Sherwood number as a function of Pe in homogeneous fluids and confirm that little gain in solute flux is achieved by swimming unless Pe is significantly larger than 10. We also consider the swimmer as an learning agent moving inside a fluid that has a concentration gradient. The outcomes of Q-learning processes show that learning locomotion (with the displacement as reward) is significantly easier than learning chemotaxis (with the increase of solute flux as reward). The chemotaxis problem, even at low Pe, has a varying environment that renders learning more difficult. Further, the learning difficulty increases severely with the P\'eclet number. The results demonstrate the challenges that natural and artificial swimmers need to overcome to migrate efficiently when exposed to chemical inhomogeneities.
翻訳日:2022-05-06 20:52:20 公開日:2022-05-05
# (参考訳) KnitCity: 予測評価と地震リスクポリシー設計のための機械学習に基づくゲーム理論フレームワーク [全文訳有]

KnitCity: a machine learning-based, game-theoretical framework for prediction assessment and seismic risk policy design ( http://arxiv.org/abs/2205.02679v1 )

ライセンス: CC BY 4.0
Ad\`ele Douin, J. P. Bruneton, Fr\'ed\'eric Lechenault(参考訳) 編物は変形すると雪崩のような現象を呈し、イートクエイクと類似させることで、これらの「ニトクエイク」を予測することに興味がある。 しかし、ほとんどの類似の地震モデルと同様に、対応する時系列の特異な統計は、これらの事象の時間断続性とスケール不変性のために、この取り組みを著しく妨げている。 しかし、より重要なのは、このような予測が難しいことである:何を予測するかの選択によって、結果は非常に異なり、簡単に比較できない。 さらに, 予測モデルには様々な汎用メトリクスが組み込まれており, 本事例では, 問題の重要な特異性が無視されている。 最後に、これらのモデルは、実際にこれらの予測を使用する最善の方法に関する明確な戦略を提供しないことが多い。 ここでは, 編み物の機械的応答で観測されるひび割れのダイナミクスをモデルとして, 予測因子だけでなく, 意思決定ポリシーも設計, 評価, 比較できるフレームワークを提案する。 我々は、ニットシティの人口を調査し、町長が人を収容することを決定できる政策を導入し、大きな出来事が人的損失を生んだ場合や、日々の費用がかかる都市を避難させるようにしている。 この政策は過去の地震観測のみに依存している。 ニューラルネットワークに基づく強化学習環境と各種時系列予測器を用いて効率的なポリシーを構築する。 このメカニズムは、予測子に物理的に動機づけられた計量を誘導することにより、意思決定プロセスにおけるそれらの関連性の定量的評価と比較を可能にする。

Knitted fabric exhibits avalanche-like events when deformed: by analogy with eathquakes, we are interested in predicting these "knitquakes". However, as in most analogous seismic models, the peculiar statistics of the corresponding time-series severely jeopardize this endeavour, due to the time intermittence and scale-invariance of these events. But more importantly, such predictions are hard to {\it assess}: depending on the choice of what to predict, the results can be very different and not easily compared. Furthermore, forecasting models may be trained with various generic metrics which ignore some important specificities of the problem at hand, in our case seismic risk. Finally, these models often do not provide a clear strategy regarding the best way to use these predictions in practice. Here we introduce a framework that allows to design, evaluate and compare not only predictors but also decision-making policies: a model seismically active {\it city} subjected to the crackling dynamics observed in the mechanical response of knitted fabric. We thus proceed to study the population of KnitCity, introducing a policy through which the mayor of the town can decide to either keep people in, which in case of large events cause human loss, or evacuate the city, which costs a daily fee. The policy only relies on past seismic observations. We construct efficient policies using a reinforcement learning environment and various time-series predictors based on artificial neural networks. By inducing a physically motivated metric on the predictors, this mechanism allows quantitative assessment and comparison of their relevance in the decision-making process.
翻訳日:2022-05-06 20:38:42 公開日:2022-05-05
# (参考訳) 野生での歩行認識:ベンチマーク [全文訳有]

Gait Recognition in the Wild: A Benchmark ( http://arxiv.org/abs/2205.02692v1 )

ライセンス: CC BY 4.0
Zheng Zhu, Xianda Guo, Tian Yang, Junjie Huang, Jiankang Deng, Guan Huang, Dalong Du, Jiwen Lu, Jie Zhou(参考訳) 歩行ベンチマークにより、研究コミュニティは高性能歩行認識システムの訓練と評価を行うことができる。 クロスビューの認識に努力が注がれているにもかかわらず、学界はコントロールされた環境でキャプチャされた現在の既存のデータベースによって制限されている。 本稿では,GREW (Gait Recognition in the Wild) の新たなベンチマークに貢献する。 GREWデータセットは、数百台のカメラと数千時間のオープンシステムのストリームを含む、自然ビデオから構築されている。 膨大な手動アノテーションにより、GREWは26Kのアイデンティティと128Kのシーケンスで構成され、制約のない歩行認識のための豊富な属性を持つ。 さらに、233K以上の配列のトラクタセットを追加し、現実世界のアプリケーションにもっと適しています。 定義済みのクロスビューデータセットと比較すると、GREWは多様で実用的なビューのバリエーションを持ち、より自然な難易度を持つ。 私たちの知る限りでは、これは野生での歩行認識のための最初の大規模データセットです。 このベンチマークにより、制約のない歩行認識問題を判別する。 代表的な外観とモデルに基づく手法を探索し,包括的ベースラインを構築した。 実験の結果,(1)野生の歩行認識器の訓練と評価には,提案する成長ベンチマークが必要であった。 (2)最先端の歩容認識アプローチには,改善の余地がたくさんある。 (3)GREWベンチマークは歩行認識のための効果的な事前トレーニングとして利用できる。 ベンチマークウェブサイトはhttps://www.grew-ben chmark.org/。

Gait benchmarks empower the research community to train and evaluate high-performance gait recognition systems. Even though growing efforts have been devoted to cross-view recognition, academia is restricted by current existing databases captured in the controlled environment. In this paper, we contribute a new benchmark for Gait REcognition in the Wild (GREW). The GREW dataset is constructed from natural videos, which contains hundreds of cameras and thousands of hours streams in open systems. With tremendous manual annotations, the GREW consists of 26K identities and 128K sequences with rich attributes for unconstrained gait recognition. Moreover, we add a distractor set of over 233K sequences, making it more suitable for real-world applications. Compared with prevailing predefined cross-view datasets, the GREW has diverse and practical view variations, as well as more natural challenging factors. To the best of our knowledge, this is the first large-scale dataset for gait recognition in the wild. Equipped with this benchmark, we dissect the unconstrained gait recognition problem. Representative appearance-based and model-based methods are explored, and comprehensive baselines are established. Experimental results show (1) The proposed GREW benchmark is necessary for training and evaluating gait recognizer in the wild. (2) For state-of-the-art gait recognition approaches, there is a lot of room for improvement. (3) The GREW benchmark can be used as effective pre-training for controlled gait recognition. Benchmark website is https://www.grew-ben chmark.org/.
翻訳日:2022-05-06 20:25:00 公開日:2022-05-05
# (参考訳) 資源が少ない言語変化の音響的定量化 [全文訳有]

Quantifying Language Variation Acoustically with Few Resources ( http://arxiv.org/abs/2205.02694v1 )

ライセンス: CC BY 4.0
Martijn Bartelds and Martijn Wieling(参考訳) 深層音響モデルは大量のデータに基づく言語情報を表す。 残念ながら、地域言語や方言では、そのような資源はほとんど利用できない。 しかし、深層音響モデルは低リソース言語に転送する言語情報を学んだかもしれない。 本研究では,低資源(オランダ)地域品種を識別する作業を通じて,この状況が評価されている。 様々なwav2vec 2.0モデルの隠れた層(オランダ語で事前学習および/または微調整された新しいモデルを含む)から埋め込みを抽出し、動的時間ワーピングを用いて4つの(地域)言語から100以上の方言に対して平均10語以上の発音差を計算する。 次に、得られた差分行列を4つのグループにクラスタリングし、これらをゴールド標準と比較し、音素転写の比較に基づいて分割する。 この結果から,オランダ語を微調整した多言語XLSR-53モデルにおいて,音素の書き起こしを必要とせず,(従来の)書き起こし方式よりも優れた音響モデルが得られた。 たった6秒の音声に基づいて、結果として得られるクラスタリングはゴールド標準と密接に一致する。

Deep acoustic models represent linguistic information based on massive amounts of data. Unfortunately, for regional languages and dialects such resources are mostly not available. However, deep acoustic models might have learned linguistic information that transfers to low-resource languages. In this study, we evaluate whether this is the case through the task of distinguishing low-resource (Dutch) regional varieties. By extracting embeddings from the hidden layers of various wav2vec 2.0 models (including new models which are pre-trained and/or fine-tuned on Dutch) and using dynamic time warping, we compute pairwise pronunciation differences averaged over 10 words for over 100 individual dialects from four (regional) languages. We then cluster the resulting difference matrix in four groups and compare these to a gold standard, and a partitioning on the basis of comparing phonetic transcriptions. Our results show that acoustic models outperform the (traditional) transcription-based approach without requiring phonetic transcriptions, with the best performance achieved by the multilingual XLSR-53 model fine-tuned on Dutch. On the basis of only six seconds of speech, the resulting clustering closely matches the gold standard.
翻訳日:2022-05-06 20:09:58 公開日:2022-05-05
# (参考訳) マルコフジャンプシステムのモード低減 [全文訳有]

Mode Reduction for Markov Jump Systems ( http://arxiv.org/abs/2205.02697v1 )

ライセンス: CC BY 4.0
Zhe Du, Laura Balzano, Necmiye Ozay(参考訳) 切り替えられたシステムは、時間とともに突然変化するかもしれない基盤となるダイナミクスを持つプロセスをモデル化することができる。 実際に正確なモデリングを実現するには、多数のモードが必要になるかもしれないが、これによってモデルの複雑さが劇的に増大する可能性がある。 システム複雑性を減らすための既存の研究は、主に状態空間の削減を考慮しているが、モードの数を減らすことは少ない。 本稿では,マルコフ連鎖に従ってアクティブモードが切り替わる切替システムの特別なクラスであるマルコフジャンプ線形系 (MJS) について考察する。 具体的には、教師なし学習のクラスタリング技術にインスパイアされて、さまざまなメトリクスの下で元のJSをうまく近似するモードを減らしたMJSを構築することができます。 さらに, 理論上, 実験的にも, MJS を低減して, 精度を保証しつつ, 計算コストを大幅に削減して, 安定度と設計コントローラを解析できることを示す。

Switched systems are capable of modeling processes with underlying dynamics that may change abruptly over time. To achieve accurate modeling in practice, one may need a large number of modes, but this may in turn increase the model complexity drastically. Existing work on reducing system complexity mainly considers state space reduction, yet reducing the number of modes is less studied. In this work, we consider Markov jump linear systems (MJSs), a special class of switched systems where the active mode switches according to a Markov chain, and several issues associated with its mode complexity. Specifically, inspired by clustering techniques from unsupervised learning, we are able to construct a reduced MJS with fewer modes that approximates well the original MJS under various metrics. Furthermore, both theoretically and empirically, we show how one can use the reduced MJS to analyze stability and design controllers with significant reduction in computational cost while achieving guaranteed accuracy.
翻訳日:2022-05-06 20:01:03 公開日:2022-05-05
# (参考訳) 産業環境における音響イベント分類:パイプ漏れ検出利用事例 [全文訳有]

Sound Event Classification in an Industrial Environment: Pipe Leakage Detection Use Case ( http://arxiv.org/abs/2205.02706v1 )

ライセンス: CC BY 4.0
Ibrahim Shaer and Abdallah Shami(参考訳) 本研究では,産業環境におけるパイプ漏れ検出のためのマルチステージ機械学習(ML)パイプラインを提案する。 他の産業や都市環境とは対照的に、調査対象の環境には多くの干渉背景ノイズが含まれており、漏洩の特定を複雑にしている。 さらに、厳しい環境条件により収集されたデータ量が制限され、低複雑度アルゴリズムの使用が強制される。 環境の制約に対処するため、開発済みのMLパイプラインは複数のステップを適用し、それぞれが環境の課題に対処する。 提案するMLパイプラインは,まず特徴選択手法によりデータ次元を小さくし,時間に基づく特徴抽出によって時間相関を組み込む。 結果として得られる機能は、少量のデータによく一般化する低複雑さのSVM(Support Vector Machine)に送られる。 提案したパイプラインの有効性を評価するため,背景産業騒音のある2つのデータセットと,無音の2つのデータセットに対して大規模な実験を行った。 パイプラインステップに特有のSVMハイパーパラメータとパラメータを実験手順の一部として調整した。 産業用ノイズと漏れのあるデータセットから得られた最良のモデルは、その一般化性をテストするために、ノイズや漏れのないデータセットに適用された。 その結果,各データセットの精度99\%,F1スコア0.93,0.9で優れた結果が得られた。

In this work, a multi-stage Machine Learning (ML) pipeline is proposed for pipe leakage detection in an industrial environment. As opposed to other industrial and urban environments, the environment under study includes many interfering background noises, complicating the identification of leaks. Furthermore, the harsh environmental conditions limit the amount of data collected and impose the use of low-complexity algorithms. To address the environment's constraints, the developed ML pipeline applies multiple steps, each addressing the environment's challenges. The proposed ML pipeline first reduces the data dimensionality by feature selection techniques and then incorporates time correlations by extracting time-based features. The resultant features are fed to a Support Vector Machine (SVM) of low-complexity that generalizes well to a small amount of data. An extensive experimental procedure was carried out on two datasets, one with background industrial noise and one without, to evaluate the validity of the proposed pipeline. The SVM hyper-parameters and parameters specific to the pipeline steps were tuned as part of the experimental procedure. The best models obtained from the dataset with industrial noise and leaks were applied to datasets without noise and with and without leaks to test their generalizability. The results show that the model produces excellent results with 99\% accuracy and an F1-score of 0.93 and 0.9 for the respective datasets.
翻訳日:2022-05-06 18:18:29 公開日:2022-05-05
# (参考訳) ユーザ画像の挙動モデリングのためのカテゴリー付きハイブリッドCNNによる注意 [全文訳有]

Hybrid CNN Based Attention with Category Prior for User Image Behavior Modeling ( http://arxiv.org/abs/2205.02711v1 )

ライセンス: CC BY 4.0
Xin Chen, Qingtao Tang, Ke Hu, Yue Xu, Shihang Qiu, Jia Cheng, Jun Lei(参考訳) ユーザの履歴行動は、オンライン広告システムにおけるクリックスルーレート(CTR)予測に有用であることが証明されている。 中国最大のeコマースプラットフォームであるMeituanでは、通常、アイテムは画像とともに表示され、ユーザーがそのアイテムをクリックしたかどうかは通常その画像に影響を受け、ユーザの視覚的嗜好を理解し、CTR予測の精度を向上させるのに役立つ。 既存のユーザイメージの振る舞いモデルは、通常、2段階のアーキテクチャを使用して、既製の畳み込みニューラルネットワーク(CNN)を通じて画像の視覚的埋め込みを抽出し、その視覚的埋め込みと非視覚的特徴とを併用してCTRモデルをトレーニングする。 CTR予測には2段階アーキテクチャが最適であることがわかった。 一方、オンライン広告システムの正確にラベル付けされたカテゴリには、大量の視覚的事前情報が含まれており、ユーザーイメージの振る舞いのモデリングを強化することができる。 しかし、カテゴリー事前を持たない既成のCNNはカテゴリ非関連の特徴を抽出し、CNNの表現能力を制限している。 この2つの課題に対処するため,CTR予測のためのハイブリッドCNNアテンションモジュールを提案する。 当社のアプローチは,10億のリアルサービングデータセット上で,オンラインおよびオフライン両方の実験において,大幅な改善を達成しています。

User historical behaviors are proved useful for Click Through Rate (CTR) prediction in online advertising system. In Meituan, one of the largest e-commerce platform in China, an item is typically displayed with its image and whether a user clicks the item or not is usually influenced by its image, which implies that user's image behaviors are helpful for understanding user's visual preference and improving the accuracy of CTR prediction. Existing user image behavior models typically use a two-stage architecture, which extracts visual embeddings of images through off-the-shelf Convolutional Neural Networks (CNNs) in the first stage, and then jointly trains a CTR model with those visual embeddings and non-visual features. We find that the two-stage architecture is sub-optimal for CTR prediction. Meanwhile, precisely labeled categories in online ad systems contain abundant visual prior information, which can enhance the modeling of user image behaviors. However, off-the-shelf CNNs without category prior may extract category unrelated features, limiting CNN's expression ability. To address the two issues, we propose a hybrid CNN based attention module, unifying user's image behaviors and category prior, for CTR prediction. Our approach achieves significant improvements in both online and offline experiments on a billion scale real serving dataset.
翻訳日:2022-05-06 18:08:26 公開日:2022-05-05
# (参考訳) 室内におけるニューラルレンダリング:事前キャプチャーされた物体からなる閉じたシーンに対するアモーダル3次元理解と自由視点レンダリング [全文訳有]

Neural Rendering in a Room: Amodal 3D Understanding and Free-Viewpoint Rendering for the Closed Scene Composed of Pre-Captured Objects ( http://arxiv.org/abs/2205.02714v1 )

ライセンス: CC BY 4.0
Bangbang Yang, Yinda Zhang, Yijin Li, Zhaopeng Cui, Sean Fanello, Hujun Bao, Guofeng Zhang(参考訳) 私たちは人間として、任意の視点から見慣れたシーンを1つのイメージで理解し、描くことができますが、それでもこれはコンピュータにとって大きな課題です。 本稿では,クローズドシーンに対するニューラルレンダリングを用いたアモーダル3次元シーン理解の新たなパラダイムに基づく,人間の知覚能力を模倣する新しい手法を提案する。 具体的には、まず、オフラインのステージを通じて、閉じたシーンのオブジェクトの事前知識を学習し、オンラインのステージが、目に見えない家具の配置で部屋を理解しやすくする。 オンラインステージでは、異なるレイアウトでシーンのパノラマ画像が与えられると、全体的なニューラルレンダリングベースの最適化フレームワークを使用して、正確な3dシーンレイアウトを効率的に推定し、リアルなフリービューポイントレンダリングを提供する。 オフライン段階とオンライン段階のドメインギャップに対処するため,本手法では,オフライントレーニングにおけるデータ拡張のための合成ニューラルレンダリング技術を利用する。 合成データと実データの両方における実験により,我々は2段階設計によって頑健な3dシーン理解を実現し,競合するメソッドを大差で上回ることを示し,また,実際のフリービューポイントレンダリングによってシーンのツーリングや編集など,さまざまなアプリケーションが可能になることを示した。 コードとデータはプロジェクトのWebページで公開されている。

We, as human beings, can understand and picture a familiar scene from arbitrary viewpoints given a single image, whereas this is still a grand challenge for computers. We hereby present a novel solution to mimic such human perception capability based on a new paradigm of amodal 3D scene understanding with neural rendering for a closed scene. Specifically, we first learn the prior knowledge of the objects in a closed scene via an offline stage, which facilitates an online stage to understand the room with unseen furniture arrangement. During the online stage, given a panoramic image of the scene in different layouts, we utilize a holistic neural-rendering-bas ed optimization framework to efficiently estimate the correct 3D scene layout and deliver realistic free-viewpoint rendering. In order to handle the domain gap between the offline and online stage, our method exploits compositional neural rendering techniques for data augmentation in the offline training. The experiments on both synthetic and real datasets demonstrate that our two-stage design achieves robust 3D scene understanding and outperforms competing methods by a large margin, and we also show that our realistic free-viewpoint rendering enables various applications, including scene touring and editing. Code and data are available on the project webpage: https://zju3dv.githu b.io/nr_in_a_room/.
翻訳日:2022-05-06 18:01:05 公開日:2022-05-05
# (参考訳) CATはファジィPETである:コーパスと潜在的エフェム的用語の解析 [全文訳有]

CATs are Fuzzy PETs: A Corpus and Analysis of Potentially Euphemistic Terms ( http://arxiv.org/abs/2205.02728v1 )

ライセンス: CC BY 4.0
Martha Gavidia, Patrick Lee, Anna Feldman, Jing Peng(参考訳) ユーフェミズムは自然言語処理においてあまり注目されていないが、礼儀正しい言語やフィギュラティブ言語の重要な要素である。 ユーフェミズムは、言語変化の対象であるだけでなく、人間がユーフェミズムと何がそうでないことに同意しないため、難しいトピックであることが証明されている。 それにもかかわらず、この問題に取り組む最初のステップは、ユーフェミズムの例を収集し分析することである。 本研究は,GloWbEコーパスのサンプルテキストとともに,潜在的なエキシマティック用語(PET)のコーパスを提示する。 さらに,これらのPETがエキシマティックに使われていないテキストのサブコーパスを提示する。 また,コーパス上で複数の解析結果について考察する。 まず,エキシマティックテキストに対する感情分析により,PETは一般的にネガティブ感と攻撃感を減少させることがわかった。 第2に,人間のコーパステキストの例のサブセットにペットを優美性があるか否かを問う,アノテーションタスクにおける不一致の事例を観察した。 PETが一般的に受け入れられている用語(CAT)であるかどうかなど,様々な潜在的な理由から意見の相違が指摘されている。

Euphemisms have not received much attention in natural language processing, despite being an important element of polite and figurative language. Euphemisms prove to be a difficult topic, not only because they are subject to language change, but also because humans may not agree on what is a euphemism and what is not. Nevertheless, the first step to tackling the issue is to collect and analyze examples of euphemisms. We present a corpus of potentially euphemistic terms (PETs) along with example texts from the GloWbE corpus. Additionally, we present a subcorpus of texts where these PETs are not being used euphemistically, which may be useful for future applications. We also discuss the results of multiple analyses run on the corpus. Firstly, we find that sentiment analysis on the euphemistic texts supports that PETs generally decrease negative and offensive sentiment. Secondly, we observe cases of disagreement in an annotation task, where humans are asked to label PETs as euphemistic or not in a subset of our corpus text examples. We attribute the disagreement to a variety of potential reasons, including if the PET was a commonly accepted term (CAT).
翻訳日:2022-05-06 17:34:02 公開日:2022-05-05
# (参考訳) Nested Sequentsによるスタンドポイント論理による推論の自動化 [全文訳有]

Automating Reasoning with Standpoint Logic via Nested Sequents ( http://arxiv.org/abs/2205.02749v1 )

ライセンス: CC BY 4.0
Tim S. Lyon and Luc\'ia G\'omez \'Alvarez(参考訳) 立場論理は知識統合の文脈で最近提案された形式主義であり、多面的アプローチを提唱し、統一を強制するのではなく、多様でおそらく矛盾する立場から推論を許す。 本稿では,ノードが複数集合の論理式を持つ木を操り,非決定論的証明探索アルゴリズムを用いて視点推論を自動化する方法を示す。 入力として公式を取り、そのサブフォルムの特定の色を推測し、その色入力でネストしたシークエント計算で証明探索を行う「色付け」と呼ばれる、ネスト化されたシークエントの文脈において、最悪の場合の最適証明探索を行う新しい手法を導入する。 提案手法は,各入力の許容色に対する部分的証明のみを生成するため,CoNPにおけるスタンドポイント式の有効性を判定する。 入力が有効であれば,すべての部分的証明を融合して完全な証明を構築する方法と,入力が無効な場合には,ある部分的証明をカウンターモデルに変換する方法を示す。 これらの「証明(certificates)」(すなわち証明と反モデル)は、入力の(in)validityの説明として役立ちます。

Standpoint logic is a recently proposed formalism in the context of knowledge integration, which advocates a multi-perspective approach permitting reasoning with a selection of diverse and possibly conflicting standpoints rather than forcing their unification. In this paper, we introduce nested sequent calculi for propositional standpoint logics--proof systems that manipulate trees whose nodes are multisets of formulae--and show how to automate standpoint reasoning by means of non-deterministic proof-search algorithms. To obtain worst-case complexity-optimal proof-search, we introduce a novel technique in the context of nested sequents, referred to as "coloring," which consists of taking a formula as input, guessing a certain coloring of its subformulae, and then running proof-search in a nested sequent calculus on the colored input. Our technique lets us decide the validity of standpoint formulae in CoNP since proof-search only produces a partial proof relative to each permitted coloring of the input. We show how all partial proofs can be fused together to construct a complete proof when the input is valid, and how certain partial proofs can be transformed into a counter-model when the input is invalid. These "certificates" (i.e. proofs and counter-models) serve as explanations of the (in)validity of the input.
翻訳日:2022-05-06 17:19:54 公開日:2022-05-05
# (参考訳) ハイパーグラフにおける二成分成分の探索

Finding Bipartite Components in Hypergraphs ( http://arxiv.org/abs/2205.02771v1 )

ライセンス: CC BY 4.0
Peter Macgregor, He Sun(参考訳) ハイパーグラフは、オブジェクトの三階関係や高階関係をモデル化する上で重要なオブジェクトであり、実際に発生する多くの複雑なデータセットの分析に多くの応用がある。 本研究では,ハイパーグラフにおける新しい熱拡散過程について検討し,このプロセスを用いて,ハイパーグラフ中の二部分極成分を概算する多項式時間アルゴリズムを設計する。 提案アルゴリズムの性能を理論的に証明し, 人工と実世界の両方のデータセットの広範な実験分析により, 先行技術と比較した。 我々の新しいアルゴリズムは、幅広いハイパーグラフにまたがって、過去の最先端技術よりも一貫して、はるかに優れています。

Hypergraphs are important objects to model ternary or higher-order relations of objects, and have a number of applications in analysing many complex datasets occurring in practice. In this work we study a new heat diffusion process in hypergraphs, and employ this process to design a polynomial-time algorithm that approximately finds bipartite components in a hypergraph. We theoretically prove the performance of our proposed algorithm, and compare it against the previous state-of-the-art through extensive experimental analysis on both synthetic and real-world datasets. We find that our new algorithm consistently and significantly outperforms the previous state-of-the-art across a wide range of hypergraphs.
翻訳日:2022-05-06 16:37:27 公開日:2022-05-05
# (参考訳) ECGデータに基づく不整脈検出のための解釈可能な機械学習モデルの開発 [全文訳有]

Development of Interpretable Machine Learning Models to Detect Arrhythmia based on ECG Data ( http://arxiv.org/abs/2205.02803v1 )

ライセンス: CC0 1.0
Shourya Verma(参考訳) 心電図(ECG)信号の解析は、心臓医が手動で行うので時間がかかる。 そのため、機械学習(ML)分類による自動化がますます提案されているため、MLモデルは心拍の特徴を学習し、異常を検出することができる。 解釈可能性の欠如は、ヘルスケアにおけるディープラーニングの適用を妨げる。 これらのモデルの解釈可能性を通じて、機械学習アルゴリズムがどのように決定を行い、どのパターンが分類に追従されているかを理解する。 この論文は、最先端モデルに基づく畳み込みニューラルネットワーク(CNN)とLong Short-Term Memory(LSTM)分類器を構築し、それらの性能と解釈可能性を浅い分類器と比較する。 ここで、グローバルおよびローカルの解釈可能性メソッドは、データセット全体の依存変数と独立変数間の相互作用を理解し、各サンプルにおけるモデル決定を調べるために利用される。 部分依存プロット、共有付加説明、置換特徴重要度、勾配重み付きクラスアクティベーションマップ(Grad-Cam)は、ECGリズムを分類する時系列MLモデルで実装された4つの解釈可能性技術である。 特に,局所的解釈可能性技術であるGrad-Camを利用して,各クラス内のECGビートが正しく,正しく分類されていないかを調べる。 さらに,K-Foldクロスバリデーション法とLeft Groups Out法を用いて分類器の評価を行い,非パラメトリック統計検査を用いて差が有意かどうかを検証した。 その結果,Grad-CAMは提案したCNNモデルとLSTMモデルの予測を説明する上で,最も効果的な解釈可能性手法であることが判明した。 予測を行う際,すべての高パフォーマンス分類器は心電図リズムのqrs複合体に注目した。

The analysis of electrocardiogram (ECG) signals can be time consuming as it is performed manually by cardiologists. Therefore, automation through machine learning (ML) classification is being increasingly proposed which would allow ML models to learn the features of a heartbeat and detect abnormalities. The lack of interpretability hinders the application of Deep Learning in healthcare. Through interpretability of these models, we would understand how a machine learning algorithm makes its decisions and what patterns are being followed for classification. This thesis builds Convolutional Neural Network (CNN) and Long Short-Term Memory (LSTM) classifiers based on state-of-the-art models and compares their performance and interpretability to shallow classifiers. Here, both global and local interpretability methods are exploited to understand the interaction between dependent and independent variables across the entire dataset and to examine model decisions in each sample, respectively. Partial Dependence Plots, Shapley Additive Explanations, Permutation Feature Importance, and Gradient Weighted Class Activation Maps (Grad-Cam) are the four interpretability techniques implemented on time-series ML models classifying ECG rhythms. In particular, we exploit Grad-Cam, which is a local interpretability technique and examine whether its interpretability varies between correctly and incorrectly classified ECG beats within each class. Furthermore, the classifiers are evaluated using K-Fold cross-validation and Leave Groups Out techniques, and we use non-parametric statistical testing to examine whether differences are significant. It was found that Grad-CAM was the most effective interpretability technique at explaining predictions of proposed CNN and LSTM models. We concluded that all high performing classifiers looked at the QRS complex of the ECG rhythm when making predictions.
翻訳日:2022-05-06 16:36:26 公開日:2022-05-05
# (参考訳) 時空間モデルを用いた長期手術ビデオにおける活動検出 [全文訳有]

Activity Detection in Long Surgical Videos using Spatio-Temporal Models ( http://arxiv.org/abs/2205.02805v1 )

ライセンス: CC BY 4.0
Aidean Sharghi, Zooey He, Omid Mohareri(参考訳) 次世代の手術装置やワークフローモニタリングシステムを実現する技術を開発する上で,自動アクティビティ検出は重要な要素である。 多くのアプリケーションでは、興味あるビデオは長く、いくつかのアクティビティを含んでいるため、そのような目的で設計されたディープモデルは、バックボーンとテンポラリシーケンスモデリングアーキテクチャで構成されている。 本稿では、最先端のアクティビティ認識と時間モデルの両方を用いて、最高のパフォーマンスをもたらすアーキテクチャを探索する。 まず, 手術室の大規模活動認識データセットに, 800本以上のフル長の手術ビデオを用いて評価を行った。 しかし,多くの医用アプリケーションはそのような大規模データセットを欠いているため,訓練ビデオはわずか40本からなるcholec80手術フェーズセグメンテーションデータセットのモデルをさらに評価した。 バックボーンアーキテクチャでは,3次元convnetと最新のtransformer-basedモデルの両方を調査し,時間モデルには時間的convnet,rnn,transfor merモデルを含む包括的かつ徹底的な研究を行った。 ラベル付きデータに制限がある場合であっても、他のタスクで事前トレーニングされたモデルから恩恵を受ければ、既存の作業よりも優れることを示す。

Automatic activity detection is an important component for developing technologies that enable next generation surgical devices and workflow monitoring systems. In many application, the videos of interest are long and include several activities; hence, the deep models designed for such purposes consist of a backbone and a temporal sequence modeling architecture. In this paper, we investigate both the state-of-the-art activity recognition and temporal models to find the architectures that yield the highest performance. We first benchmark these models on a large-scale activity recognition dataset in the operating room with over 800 full-length surgical videos. However, since most other medical applications lack such a large dataset, we further evaluate our models on the Cholec80 surgical phase segmentation dataset, consisting of only 40 training videos. For backbone architectures, we investigate both 3D ConvNets and most recent transformer-based models; for temporal modeling, we include temporal ConvNets, RNNs, and transformer models for a comprehensive and thorough study. We show that even in the case of limited labeled data, we can outperform the existing work by benefiting from models pre-trained on other tasks.
翻訳日:2022-05-06 16:14:31 公開日:2022-05-05
# LAWS:量子ニューラルネットワークの自然光の輝きを振り返ってウォームスター

LAWS: Look Around and Warm-Start Natural Gradient Descent for Quantum Neural Networks ( http://arxiv.org/abs/2205.02666v1 )

ライセンス: Link先を確認
Zeyi Tao, Jindi Wu, Qi Xia, Qun Li(参考訳) 変分量子アルゴリズム(VQA)は、最近、ノイズ中間スケール量子コンピュータ(NISQ)における有望な性能のために、研究コミュニティから大きな注目を集めている。 しかし、パラメータ化量子回路(PQC)上でランダムに初期化パラメータを持つVQAは、勾配が量子ビット数で指数関数的に消失するバレンプラトー(BP)によって特徴づけられる。 本稿では、古典的な一階最適化の観点から、VQAでよく使われるアルゴリズムの1つである量子自然勾配(QNG)について概観する。 そこで我々は,既存のBP問題を緩和するために, \underline{L}ook \underline{A}round \underline{W}arm-\underline{S}tart QNG (LAWS) アルゴリズムを提案した。 LAWSはモデルパラメータの初期化とQNGの高速収束を利用した組合せ最適化戦略である。 LAWSは、次のイテレーションパラメータ更新のためにパラメータ検索スペースを再起動する。 再帰パラメータ探索空間は、現在の最適に近い勾配をサンプリングすることで慎重に選択される。 さらに,パラメータ初期化手法を最適化器に統合するための統合フレームワーク(WS-SGD)を提案する。 本稿では,polyak-lojasiewicz (pl) 条件に基づく凸目的関数と非凸目的関数の両方に対する提案フレームワークの収束証明を提供する。 実験の結果,提案アルゴリズムはBPを緩和し,量子分類問題においてより優れた一般化能力を有することが示された。

Variational quantum algorithms (VQAs) have recently received significant attention from the research community due to their promising performance in Noisy Intermediate-Scale Quantum computers (NISQ). However, VQAs run on parameterized quantum circuits (PQC) with randomly initialized parameters are characterized by barren plateaus (BP) where the gradient vanishes exponentially in the number of qubits. In this paper, we first review quantum natural gradient (QNG), which is one of the most popular algorithms used in VQA, from the classical first-order optimization point of view. Then, we proposed a \underline{L}ook \underline{A}round \underline{W}arm-\underline{S}tart QNG (LAWS) algorithm to mitigate the widespread existing BP issues. LAWS is a combinatorial optimization strategy taking advantage of model parameter initialization and fast convergence of QNG. LAWS repeatedly reinitializes parameter search space for the next iteration parameter update. The reinitialized parameter search space is carefully chosen by sampling the gradient close to the current optimal. Moreover, we present a unified framework (WS-SGD) for integrating parameter initialization techniques into the optimizer. We provide the convergence proof of the proposed framework for both convex and non-convex objective functions based on Polyak-Lojasiewicz (PL) condition. Our experiment results show that the proposed algorithm could mitigate the BP and have better generalization ability in quantum classification problems.
翻訳日:2022-05-06 16:01:29 公開日:2022-05-05
# 中国サッカースーパーリーグのプレーポジション毎のプレイヤーベクターに基づく選手のプレースタイルの特徴付け

Characterizing player's playing styles based on Player Vectors for each playing position in the Chinese Football Super League ( http://arxiv.org/abs/2205.02731v1 )

ライセンス: Link先を確認
Yuesen Li, Shouxin Zong, Yanfei Shen, Zhiqiang Pu, Miguel-\'Angel G\'omez, Yixiong Cui(参考訳) プレースタイルを特徴付けることは、スカウティング、監視、試合準備においてサッカークラブにとって重要である。 以前の研究では、プレイヤーのスタイルは技術的なパフォーマンスの組み合わせと見なされ、空間情報は考慮されなかった。 そこで本研究では,中国サッカースーパーリーグ(CSL)の試合における各プレーポジションのプレースタイルを特徴付けることを目的として,最近採用されたプレーヤベクターズフレームワークを統合した。 2016-2019 CSLの960試合のデータを使用した。 オンピッチ時間45分を超えるすべてのラインアップ選手に対して、マッチレーティングと対応する座標との10種類のマッチイベントを抽出した。 プレイヤーはまず8つのポジションに分けられた。 非負行列因子化 (NMF) を用いて, プレイヤーベクトルに基づいて各試合におけるプレイヤーベクトルを構築した。 別のNMFプロセスはプレイヤーベクトル上で実行され、様々な種類のプレイスタイルを抽出した。 プレイヤーベクターはCSLで18種類のプレイスタイルを発見した。 各スタイルの6つのパフォーマンス指標を調査し,その貢献を観察した。 一般的に、フォワードやミッドフィールダーのプレースタイルはフットボールのパフォーマンスの進化傾向と一致しており、ディフェンダーのスタイルは再考されるべきである。 マルチファンクショナルプレイスタイルは、高い評価のCSLプレーヤーにも見られる。

Characterizing playing style is important for football clubs on scouting, monitoring and match preparation. Previous studies considered a player's style as a combination of technical performances, failing to consider the spatial information. Therefore, this study aimed to characterize the playing styles of each playing position in the Chinese Football Super League (CSL) matches, integrating a recently adopted Player Vectors framework. Data of 960 matches from 2016-2019 CSL were used. Match ratings, and ten types of match events with the corresponding coordinates for all the lineup players whose on-pitch time exceeded 45 minutes were extracted. Players were first clustered into 8 positions. A player vector was constructed for each player in each match based on the Player Vectors using Nonnegative Matrix Factorization (NMF). Another NMF process was run on the player vectors to extract different types of playing styles. The resulting player vectors discovered 18 different playing styles in the CSL. Six performance indicators of each style were investigated to observe their contributions. In general, the playing styles of forwards and midfielders are in line with football performance evolution trends, while the styles of defenders should be reconsidered. Multifunctional playing styles were also found in high rated CSL players.
翻訳日:2022-05-06 16:01:06 公開日:2022-05-05
# ロボットの学習に役立つ形態学

Morphological Wobbling Can Help Robots Learn ( http://arxiv.org/abs/2205.02811v1 )

ライセンス: Link先を確認
Fabien C. Y. Benureau and Jun Tani(参考訳) ロボットの身体特性を振動させ,その動作性能を向上させることを提案する。 ロボットでは通常固定される質量、アクチュエータ強度、大きさなどの量について検討し、シミュレーションされた2Dソフトロボットで学習プロセスの開始時にそれらの量が振動すると、移動タスクの性能が大幅に向上することを示す。 本研究は,この現象のダイナミクスを調査し,本事例では,学習時間の大部分に振幅が大きい高周波振動が最高性能の利点をもたらすと結論づける。 さらに,形態的ウォブリングが探索空間の探索を著しく増加させることを示す。

We propose to make the physical characteristics of a robot oscillate while it learns to improve its behavioral performance. We consider quantities such as mass, actuator strength, and size that are usually fixed in a robot, and show that when those quantities oscillate at the beginning of the learning process on a simulated 2D soft robot, the performance on a locomotion task can be significantly improved. We investigate the dynamics of the phenomenon and conclude that in our case, surprisingly, a high-frequency oscillation with a large amplitude for a large portion of the learning duration leads to the highest performance benefits. Furthermore, we show that morphological wobbling significantly increases exploration of the search space.
翻訳日:2022-05-06 16:00:47 公開日:2022-05-05
# モデルベースディープラーニング: ディープラーニングと最適化の交点について

Model-Based Deep Learning: On the Intersection of Deep Learning and Optimization ( http://arxiv.org/abs/2205.02640v1 )

ライセンス: Link先を確認
Nir Shlezinger, Yonina C. Eldar, and Stephen P. Boyd(参考訳) 意思決定アルゴリズムは、さまざまなアプリケーションで使われている。 決定アルゴリズムを設計する従来のアプローチでは、従順な最適化によって決定を決定できる原則と単純化されたモデリングを採用している。 近年,数理モデルに頼らずにデータから調整された高度パラメトリックアーキテクチャを用いたディープラーニングアプローチが普及している。 モデルに基づく最適化とデータ中心のディープラーニングは、しばしば異なる規律とみなされる。 本稿では,特定性とパラメータ化の異なる連続スペクトルのエッジとして特徴付け,モデルベース深層学習と呼ばれる,このスペクトルの中間層に位置する方法論をチュートリアル形式で提示する。 超解像および確率制御における実例の紹介に随伴して,提案した特徴量を用いて表現し,それぞれの詳細な方法論に特化していることを示す。 モデルに基づく最適化とディープラーニングを組み合わせることで、生体画像からデジタルコミュニケーションまで様々な応用における実験結果が得られた。

Decision making algorithms are used in a multitude of different applications. Conventional approaches for designing decision algorithms employ principled and simplified modelling, based on which one can determine decisions via tractable optimization. More recently, deep learning approaches that use highly parametric architectures tuned from data without relying on mathematical models, are becoming increasingly popular. Model-based optimization and data-centric deep learning are often considered to be distinct disciplines. Here, we characterize them as edges of a continuous spectrum varying in specificity and parameterization, and provide a tutorial-style presentation to the methodologies lying in the middle ground of this spectrum, referred to as model-based deep learning. We accompany our presentation with running examples in super-resolution and stochastic control, and show how they are expressed using the provided characterization and specialized in each of the detailed methodologies. The gains of combining model-based optimization and deep learning are demonstrated using experimental results in various applications, ranging from biomedical imaging to digital communications.
翻訳日:2022-05-06 16:00:36 公開日:2022-05-05
# OCCにおけるマルチエージェント深部強化学習

Multi-Agent Deep Reinforcement Learning in Vehicular OCC ( http://arxiv.org/abs/2205.02672v1 )

ライセンス: Link先を確認
Amirul Islam, Leila Musavian and Nikolaos Thomos(参考訳) 光カメラ通信(OCC)は、将来の自動運転車のシームレスな運用を可能にする重要な技術として登場した。 本稿では,車載OCCにおけるスペクトル効率最適化手法を提案する。 具体的には,ビット誤り率と遅延制約を考慮しつつ,変調順序と相対速度を最適に適応することを目的とする。 最適化問題はNPハード問題であるため、最適化問題をマルコフ決定プロセス(MDP)としてモデル化し、オンラインで適用可能なソリューションの利用を可能にする。 そして,マルチエージェント深層強化学習(drl)により解く前に,ラグランジュ緩和法を用いて制約問題を緩和した。 提案手法の性能を広範囲なシミュレーションにより検証し,提案手法の様々なバリエーションとランダム手法との比較を行った。 評価の結果,本システムでは,比較対象のスキームに比べてスペクトルの総和効率が有意に高いことがわかった。

Optical camera communications (OCC) has emerged as a key enabling technology for the seamless operation of future autonomous vehicles. In this paper, we introduce a spectral efficiency optimization approach in vehicular OCC. Specifically, we aim at optimally adapting the modulation order and the relative speed while respecting bit error rate and latency constraints. As the optimization problem is NP-hard problem, we model the optimization problem as a Markov decision process (MDP) to enable the use of solutions that can be applied online. We then relaxed the constrained problem by employing Lagrange relaxation approach before solving it by multi-agent deep reinforcement learning (DRL). We verify the performance of our proposed scheme through extensive simulations and compare it with various variants of our approach and a random method. The evaluation shows that our system achieves significantly higher sum spectral efficiency compared to schemes under comparison.
翻訳日:2022-05-06 15:58:22 公開日:2022-05-05
# (参考訳) 強化学習による迅速な移動 [全文訳有]

Rapid Locomotion via Reinforcement Learning ( http://arxiv.org/abs/2205.02824v1 )

ライセンス: CC BY 4.0
Gabriel B Margolis, Ge Yang, Kartik Paigwar, Tao Chen and Pulkit Agrawal(参考訳) スプリントやワイルドでの高速回転といったアジャイルの操作は、脚のあるロボットにとって難しい。 我々は、MIT Mini Cheetahで記録的な俊敏性を達成し、最大3.9m/sの速度を持続するエンドツーエンドの学習コントローラを提案する。 このシステムは、草、氷、砂利などの自然の地形で速く動き、乱れに強く反応する。 私たちのコントローラは、強化学習によるシミュレーションでトレーニングされたニューラルネットワークで、現実世界に転送されます。 2つの重要な要素は (i)速度指令の適応カリキュラムと (ii)先行研究から活用したsim-to-real転送のためのオンラインシステム識別戦略。 ロボットの動作のビデオは、https://agility.csai l.mit.edu/で見ることができる。

Agile maneuvers such as sprinting and high-speed turning in the wild are challenging for legged robots. We present an end-to-end learned controller that achieves record agility for the MIT Mini Cheetah, sustaining speeds up to 3.9 m/s. This system runs and turns fast on natural terrains like grass, ice, and gravel and responds robustly to disturbances. Our controller is a neural network trained in simulation via reinforcement learning and transferred to the real world. The two key components are (i) an adaptive curriculum on velocity commands and (ii) an online system identification strategy for sim-to-real transfer leveraged from prior work. Videos of the robot's behaviors are available at: https://agility.csai l.mit.edu/
翻訳日:2022-05-06 15:56:28 公開日:2022-05-05
# 効率的なカメラポーズ推定のための暗黙的ポーズ符号化

ImPosIng: Implicit Pose Encoding for Efficient Camera Pose Estimation ( http://arxiv.org/abs/2205.02638v1 )

ライセンス: Link先を確認
Arthur Moreau, Thomas Gilles, Nathan Piasco, Dzmitry Tsishkou, Bogdan Stanciulescu, Arnaud de La Fortelle(参考訳) 本研究では,都市環境下でのリアルタイムかつ正確な位置推定が可能なカメラポーズ推定のための新しい学習型定式化を提案する。 カメラポーズ推定アルゴリズムは、ジオリファレンス画像のセットまたは3Dシーン表現を用いて、画像がキャプチャされた位置と向きを決定する。 新たなローカライゼーションパラダイムであるImplicit Pose Encoding(ImPosing)は、イメージとカメラのポーズを2つの別々のニューラルネットワークで共通潜伏表現に埋め込むことで、各画像配置ペアの類似度スコアを計算することができる。 潜在空間を階層的に評価することにより、カメラの位置と向きは直接後退するのではなく、段階的に洗練される。 構造に基づく再ローカライズ手法で用いられる表現と比較して、暗黙マップはメモリ境界であり、学習に基づく回帰アプローチに対するローカライズ性能を改善するために適切に検討することができる。 本稿では,学習モジュールを効果的に最適化する方法と,それらを組み合わせてリアルタイムなローカライゼーションを実現する方法について述べる。

We propose a novel learning-based formulation for camera pose estimation that can perform relocalization accurately and in real-time in city-scale environments. Camera pose estimation algorithms determine the position and orientation from which an image has been captured, using a set of geo-referenced images or 3D scene representation. Our new localization paradigm, named Implicit Pose Encoding (ImPosing), embeds images and camera poses into a common latent representation with 2 separate neural networks, such that we can compute a similarity score for each image-pose pair. By evaluating candidates through the latent space in a hierarchical manner, the camera position and orientation are not directly regressed but incrementally refined. Compared to the representation used in structure-based relocalization methods, our implicit map is memory bounded and can be properly explored to improve localization performances against learning-based regression approaches. In this paper, we describe how to effectively optimize our learned modules, how to combine them to achieve real-time localization, and demonstrate results on diverse large scale scenarios that significantly outperform prior work in accuracy and computational efficiency.
翻訳日:2022-05-06 15:37:29 公開日:2022-05-05
# hogとsvmアルゴリズムを用いた人間検出のためのハードウェアシステム実装

Hardware System Implementation for Human Detection using HOG and SVM Algorithm ( http://arxiv.org/abs/2205.02689v1 )

ライセンス: Link先を確認
Van-Cam Nguyen, Hong-Tuan-Dinh Le, Huu-Thuan Huynh(参考訳) 人間検出は一般的な問題であり、多くのアプリケーションで広く使われている。 しかし、計算の複雑さを含むと、人間の検出システムはリアルタイムアプリケーションではほとんど実装されない。 本稿では,modelsimツールでシミュレートされた人間検出システムであるハードウェアのアーキテクチャについて述べる。 コプロセッサとして、このシステムは中央プロセッサユニット(cpu)へのオフロードと計算タイミングの高速化のために開発された。 静的入力画像の130x66 RGBピクセルは、向き付け勾配 (HOG) アルゴリズムのヒストグラムとサポートベクトルマシン (SVM) アルゴリズムを用いて特徴を抽出し分類した。 その結果、このシステムの精度は84.35パーセントに達した。 また,検出タイミングは50MHz帯で0.757ms(Matlabツールを用いてソフトウェアで実装した場合の54倍)に低下した。

Human detection is a popular issue and has been widely used in many applications. However, including complexities in computation, leading to the human detection system implemented hardly in real-time applications. This paper presents the architecture of hardware, a human detection system that was simulated in the ModelSim tool. As a co-processor, this system was built to off-load to Central Processor Unit (CPU) and speed up the computation timing. The 130x66 RGB pixels of static input image attracted features and classify by using the Histogram of Oriented Gradient (HOG) algorithm and Support Vector Machine (SVM) algorithm, respectively. As a result, the accuracy rate of this system reaches 84.35 percent. And the timing for detection decreases to 0.757 ms at 50MHz frequency (54 times faster when this system was implemented in software by using the Matlab tool).
翻訳日:2022-05-06 15:37:08 公開日:2022-05-05
# 時間的一貫した歩行推定のためのクープマンポーズ予測

Koopman pose predictions for temporally consistent human walking estimations ( http://arxiv.org/abs/2205.02737v1 )

ライセンス: Link先を確認
Marc Mitjans, David M. Levine, Louis N. Awad, Roberto Tron(参考訳) Inertial Measurement Unit(IMU)データ、RGB画像、点雲深度測定を組み合わせたマルチモーダルシステムを用いて、臨床モビリティ評価のための自動動作評価システムに向けた最初のステップとして、ヒトの下半身追跡の問題に取り組む。 このシステムは、3次元骨格ジョイント推定を提供する最適化問題に因子グラフ表現を適用する。 本稿では,推定された人間の軌道の時間的整合性の向上に着目し,深度センサの動作範囲を大幅に拡張する。 より具体的には、いくつかの下辺運動アクティビティの非線形ダイナミクスを組み込んだkoopman理論に基づく新しい因子グラフ因子を提案する。 第一に、空間時間グラフ畳み込みネットワークに基づくカスタムアクティビティ認識モジュールが歩行動作を認識し、次いで、Koopmanが後続の骨格のポーズ予測を優先推定として使用し、最適化問題をより一貫した結果へと導く。 我々は,複数の臨床下肢モビリティテストからなるデータセットを用いて,本モジュールの性能を検証した。本手法は,深度10m以上の自然歩行軌跡を保存しながら,骨格形状の外れ率を約1m低減することを示した。

We tackle the problem of tracking the human lower body as an initial step toward an automatic motion assessment system for clinical mobility evaluation, using a multimodal system that combines Inertial Measurement Unit (IMU) data, RGB images, and point cloud depth measurements. This system applies the factor graph representation to an optimization problem that provides 3-D skeleton joint estimations. In this paper, we focus on improving the temporal consistency of the estimated human trajectories to greatly extend the range of operability of the depth sensor. More specifically, we introduce a new factor graph factor based on Koopman theory that embeds the nonlinear dynamics of several lower-limb movement activities. This factor performs a two-step process: first, a custom activity recognition module based on spatial temporal graph convolutional networks recognizes the walking activity; then, a Koopman pose prediction of the subsequent skeleton is used as an a priori estimation to drive the optimization problem toward more consistent results. We tested the performance of this module on datasets composed of multiple clinical lowerlimb mobility tests, and we show that our approach reduces outliers on the skeleton form by almost 1 m, while preserving natural walking trajectories at depths up to more than 10 m.
翻訳日:2022-05-06 15:36:53 公開日:2022-05-05
# 二変量vine copulaに基づく分位回帰

Bivariate vine copula based quantile regression ( http://arxiv.org/abs/2205.02557v1 )

ライセンス: Link先を確認
Marija Tepegjozova and Claudia Czado(参考訳) 単変量体の統計解析は、よく発達した研究トピックである。 しかし、多変量体の研究には大きな必要性がある。 本研究では,二変量体と二変量体回帰の話題に取り組む。 これらは連結木の列によって識別されるグラフ理論モデルであり、辺分布と依存構造を分離したモデル化を可能にする。 予測回帰設定において,2つの応答の対称的処理に特化して設計された新しいグラフ構造モデルを提案する。 我々は,モデルの計算的トラクタビリティと,異なる条件分布を得るための直進的な方法を確立する。 ワインコプラを用いた回帰の典型的な欠点は、予測子の変換や相互作用を必要とするため、コリニアリティや量子交差は避けられる。 本稿では,コプラ分布の異なる2変量体について説明するとともに,データセットの例を示す。 さらに、データ例は、2つの別々の単変量回帰と対照的に、あるいは条件依存の有無で設定された二変量応答データセットに対して条件独立を仮定することで、共同二変量応答モデリングの利点を強調している。

The statistical analysis of univariate quantiles is a well developed research topic. However, there is a profound need for research in multivariate quantiles. We tackle the topic of bivariate quantiles and bivariate quantile regression using vine copulas. They are graph theoretical models identified by a sequence of linked trees, which allow for separate modelling of marginal distributions and the dependence structure. We introduce a novel graph structure model (given by a tree sequence) specifically designed for a symmetric treatment of two responses in a predictive regression setting. We establish computational tractability of the model and a straight forward way of obtaining different conditional distributions. Using vine copulas the typical shortfalls of regression, as the need for transformations or interactions of predictors, collinearity or quantile crossings are avoided. We illustrate the copula based bivariate quantiles for different copula distributions and provide a data set example. Further, the data example emphasizes the benefits of the joint bivariate response modelling in contrast to two separate univariate regressions or by assuming conditional independence, for bivariate response data set in the presence of conditional dependence.
翻訳日:2022-05-06 15:36:32 公開日:2022-05-05
# (参考訳) BlobGAN:空間的に混乱したシーン表現

BlobGAN: Spatially Disentangled Scene Representations ( http://arxiv.org/abs/2205.02837v1 )

ライセンス: CC BY 4.0
Dave Epstein, Taesung Park, Richard Zhang, Eli Shechtman, Alexei A. Efros(参考訳) シーン生成モデルのための教師なし中間レベル表現を提案する。 この表現はピクセル単位でも画像単位でもないという点で中間レベルであり、むしろシーンは、空間的、深さ順に並べられた特徴の集まりとしてモデル化されている。 ブロブは、生成的な敵ネットワークによって画像にデコードされる特徴グリッド上に微分可能に配置される。 ブロブの空間的均一性と畳み込みに固有の局所性により,ネットワークは異なるブロブとシーン内の異なるエンティティを関連付け,これらのブロブを配置してシーンレイアウトをキャプチャする。 このような創発的行動は, 現場内の物体の操作(移動, 取り外し, 家具の復元など)や制約のある場面(例えば, 特定の場所に引き出しのある部屋)の作成, 現実世界の画像を構成部品に解析することなど, いかなる監督もせずにトレーニングを行うことによっても実現可能であることを示す。 屋内シーンの挑戦的なマルチカテゴリデータセットでは、BlobGANはFIDによって測定された画像品質でStyleGAN2を上回っている。 ビデオ結果とインタラクティブなデモについては、プロジェクトのページをご覧ください。

We propose an unsupervised, mid-level representation for a generative model of scenes. The representation is mid-level in that it is neither per-pixel nor per-image; rather, scenes are modeled as a collection of spatial, depth-ordered "blobs" of features. Blobs are differentiably placed onto a feature grid that is decoded into an image by a generative adversarial network. Due to the spatial uniformity of blobs and the locality inherent to convolution, our network learns to associate different blobs with different entities in a scene and to arrange these blobs to capture scene layout. We demonstrate this emergent behavior by showing that, despite training without any supervision, our method enables applications such as easy manipulation of objects within a scene (e.g., moving, removing, and restyling furniture), creation of feasible scenes given constraints (e.g., plausible rooms with drawers at a particular location), and parsing of real-world images into constituent parts. On a challenging multi-category dataset of indoor scenes, BlobGAN outperforms StyleGAN2 in image quality as measured by FID. See our project page for video results and interactive demo: http://www.dave.ml/b lobgan
翻訳日:2022-05-06 15:33:38 公開日:2022-05-05
# 対向摂動による公平な画像検索の変換

Subverting Fair Image Search with Generative Adversarial Perturbations ( http://arxiv.org/abs/2205.02414v1 )

ライセンス: Link先を確認
Avijit Ghosh, Matthew Jagielski, Christo Wilson(参考訳) この研究では、ランク付けの文脈において、交点の公平性と堅牢性を探求する: \textit{あるランクモデルが一定のフェアネスの定義を達成するために校正されたとき、外部の敵が、モデルやトレーニングデータにアクセスせずに、ランク付けモデルを不公平に振る舞わせることは可能か? そこで本研究では,GAP(Generative Adversarial Perturbation)モデルを用いて悪質に修正された画像を用いて,最先端の公正な画像検索エンジンを開発し,攻撃するケーススタディを提案する。 これらの混乱は、公正に再ランク付けされたアルゴリズムが、敵対するサブ人口からの人々を含む画像のランクを不当に向上させようとする。 本研究は,本攻撃が多数階級の人に対して,比較的ランクの高いベースライン検索結果に対して大きな不公平な優位性をもたらすことを実証する広範な実験の結果を示す。 我々は,攻撃が多数の変数に対して堅牢であること,検索結果の関連性にほとんど影響を与えないこと,厳密な脅威モデルの下で成功することを実証した。 本研究は,(1)公正性を達成するために必要なデータが逆向きに操作される場合,(2)モデル自体が攻撃に対して堅牢ではない場合に,公平な機械学習アルゴリズムを現場に展開する危険性を強調した。

In this work we explore the intersection fairness and robustness in the context of ranking: \textit{when a ranking model has been calibrated to achieve some definition of fairness, is it possible for an external adversary to make the ranking model behave unfairly without having access to the model or training data?} To investigate this question, we present a case study in which we develop and then attack a state-of-the-art, fairness-aware image search engine using images that have been maliciously modified using a Generative Adversarial Perturbation (GAP) model. These perturbations attempt to cause the fair re-ranking algorithm to unfairly boost the rank of images containing people from an adversary-selected subpopulation. We present results from extensive experiments demonstrating that our attacks can successfully confer significant unfair advantage to people from the majority class relative to fairly-ranked baseline search results. We demonstrate that our attacks are robust across a number of variables, that they have close to zero impact on the relevance of search results, and that they succeed under a strict threat model. Our findings highlight the danger of deploying fair machine learning algorithms in-the-wild when (1) the data necessary to achieve fairness may be adversarially manipulated, and (2) the models themselves are not robust against attacks.
翻訳日:2022-05-06 15:32:32 公開日:2022-05-05
# ソフトでハードな制約付きパラメトリック生成スキームによる翼の符号化と合成

Soft and Hard Constrained Parametric Generative Schemes for Encoding and Synthesizing Airfoils ( http://arxiv.org/abs/2205.02458v1 )

ライセンス: Link先を確認
Hairun Xie, Jing Wang and Miao Zhang(参考訳) 従来の翼パラメトリック技術は, 空気力学的最適化設計において大きな限界があり, 直感性, 柔軟性, 代表精度のよいパラメトリック手法の開発には強い需要がある。 本稿では,特定の制約下での複雑な設計空間を表現するために,深層学習法に基づく2つのパラメトリック生成スキームを提案する。 1.ソフト制約スキーム:CVAEベースのモデルは、ネットワークの一部として幾何学的制約を訓練し、制約付き翼合成を提供する。 2. ハード制約スキーム: VAEベースのモデルは多様な翼を生成するのに役立ち、FFDベースの技術は、生成された翼を所定の制約を満たす最終翼に投射する。 統計的結果は、再構成された翼は、余分なフィルターなしで正確で滑らかであることを示している。 軟拘束スキームは、幾何学空間と目的空間の両方において基準翼に集中して、効率的かつ効果的に翼を合成し探索する傾向がある。 モデルの固有の特性のため、制約は少し緩くなります。 ハード制約スキームは、幾何学空間と目的空間の両方においてより広い範囲の翼を生成し探索する傾向にあり、対象空間の分布は正規分布に近い。 このスキームを通じて合成された翼は制約に厳密に準拠するが、射影はいくつかの奇妙な翼形を生じる可能性がある。

Traditional airfoil parametric technique has significant limitation in modern aerodynamic optimization design.There is a strong demand for developing a parametric method with good intuitiveness, flexibility and representative accuracy. In this paper, two parametric generative schemes based on deep learning methods are proposed to represent the complicate design space under specific constraints. 1. Soft-constrained scheme: The CVAE-based model trains geometric constraints as part of the network and can provide constrained airfoil synthesis; 2. Hard-constrained scheme: The VAE-based model serves to generate diverse airfoils, while an FFD-based technique projects the generated airfoils to the final airfoils satisfying the given constraints. The statistical results show that the reconstructed airfoils are accurate and smooth without extra filters. The soft constrained scheme tend to synthesize and explore airfoils efficiently and effectively, concentrating to the reference airfoil in both geometry space and objective space. The constraints will loose for a little bit because the inherent property of the model. The hard constrained scheme tend to generate and explore airfoils in a wider range for both geometry space and objective space, and the distribution in objective space is closer to normal distribution. The synthesized airfoils through this scheme strictly conform with constraints, though the projection may produce some odd airfoil shapes.
翻訳日:2022-05-06 15:32:07 公開日:2022-05-05
# 局所微分プライバシー下における平均推定の最適アルゴリズム

Optimal Algorithms for Mean Estimation under Local Differential Privacy ( http://arxiv.org/abs/2205.02466v1 )

ライセンス: Link先を確認
Hilal Asi, Vitaly Feldman, Kunal Talwar(参考訳) 局所微分プライバシーの制約下での$\ell_2$-boundedベクトルの平均推定問題について検討する。 文献には、この問題の漸近的最適速度を達成する様々なアルゴリズムがあるが、実際にはこれらのアルゴリズムの性能は、様々な(しばしば大きな)隠れ定数によって大きく異なる。 本研究では,最小の分散でプロトコルを設計する問題について検討する。 最適化されたパラメータを持つprivunit (bhowmick et al. 2018) は、局所的ランダム化器の大きなファミリー間の最適な分散を実現する。 この結果を証明するため、局所ランダム化器の特性を定式化し、最適なランダム化器をある線形プログラムの最適化器として書けるように対称性の引数を用いる。 これらの構造結果は、他の問題にまで拡張され、最適確率化器がPrivUnitファミリーに属することを示す。 また,ガウス分布に基づくPrivUnitの新しい変種も開発しており,数学的解析に適しており,同じ最適性保証を享受できる。 これにより、最適誤差の厳密な定数にいくつかの有用な性質を定め、これらの定数を数値的に推定することができる。

We study the problem of mean estimation of $\ell_2$-bounded vectors under the constraint of local differential privacy. While the literature has a variety of algorithms that achieve the asymptotically optimal rates for this problem, the performance of these algorithms in practice can vary significantly due to varying (and often large) hidden constants. In this work, we investigate the question of designing the protocol with the smallest variance. We show that PrivUnit (Bhowmick et al. 2018) with optimized parameters achieves the optimal variance among a large family of locally private randomizers. To prove this result, we establish some properties of local randomizers, and use symmetrization arguments that allow us to write the optimal randomizer as the optimizer of a certain linear program. These structural results, which should extend to other problems, then allow us to show that the optimal randomizer belongs to the PrivUnit family. We also develop a new variant of PrivUnit based on the Gaussian distribution which is more amenable to mathematical analysis and enjoys the same optimality guarantees. This allows us to establish several useful properties on the exact constants of the optimal error as well as to numerically estimate these constants.
翻訳日:2022-05-06 15:31:44 公開日:2022-05-05
# deepextrema:時系列データにおけるブロック最大値予測のためのディープラーニングアプローチ

DeepExtrema: A Deep Learning Approach for Forecasting Block Maxima in Time Series Data ( http://arxiv.org/abs/2205.02441v1 )

ライセンス: Link先を確認
Asadullah Hill Galib, Andrew McDonald, Tyler Wilson, Lifeng Luo, Pang-Ning Tan(参考訳) 時系列における極端な値の正確な予測は、人や自然システムに対する極端な事象の重大な影響のために重要である。 本稿では,ディープニューラルネットワーク(dnn)と一般化極値(gev)分布を組み合わせて,時系列のブロック最大値を予測する新しいフレームワークであるdeepextremaを提案する。 DNNが初期化されても、GEVモデルパラメータ間の依存する制約をフレームワークが保持しなければならないため、そのようなネットワークの実装は課題である。 本稿では,この課題に対処するためのアプローチについて述べるとともに,ブロック最大値の条件平均と量子的予測を両立させるアーキテクチャを提案する。 実世界のデータと合成データの両方で行われた広範な実験は、他のベースライン法と比較してDeepExtremaの優位性を示した。

Accurate forecasting of extreme values in time series is critical due to the significant impact of extreme events on human and natural systems. This paper presents DeepExtrema, a novel framework that combines a deep neural network (DNN) with generalized extreme value (GEV) distribution to forecast the block maximum value of a time series. Implementing such a network is a challenge as the framework must preserve the inter-dependent constraints among the GEV model parameters even when the DNN is initialized. We describe our approach to address this challenge and present an architecture that enables both conditional mean and quantile prediction of the block maxima. The extensive experiments performed on both real-world and synthetic data demonstrated the superiority of DeepExtrema compared to other baseline methods.
翻訳日:2022-05-06 15:21:25 公開日:2022-05-05
# Dstインデックス予測のためのディープラーニングアプローチ

A Deep Learning Approach to Dst Index Prediction ( http://arxiv.org/abs/2205.02447v1 )

ライセンス: Link先を確認
Yasser Abduallah, Jason T. L. Wang, Prianka Bose, Genwei Zhang, Firas Gerges, Haimin Wang(参考訳) 外乱嵐時間(dst)指数は宇宙気象研究において重要かつ有用な測定指標である。 磁気嵐の大きさと強度を特徴付けるために使用されている。 負のdst値は、地球の磁場が弱められ、嵐の時に起こることを意味する。 本稿では,nasa宇宙科学データコーディネートアーカイブが提供する太陽風パラメータに基づくdst指数の予測を行うために,dstトランスフォーマと呼ばれる新しい深層学習手法を提案する。 dstトランスフォーマはマルチヘッドアテンション層とベイズ推論を組み合わせることで、dst予測を行う際のアレエータ的不確かさと認識的不確実性の両方を定量化することができる。 実験結果から,提案したDst変換器は根平均二乗誤差とR-二乗誤差で,関連する機械学習手法よりも優れていた。 さらに、dstトランスフォーマは、データとモデルの不確かさの定量化結果の両方を生成でき、既存の方法では不可能である。 我々の知る限り、ベイジアンディープラーニングがDstインデックス予測に使用されたのはこれが初めてである。

The disturbance storm time (Dst) index is an important and useful measurement in space weather research. It has been used to characterize the size and intensity of a geomagnetic storm. A negative Dst value means that the Earth's magnetic field is weakened, which happens during storms. In this paper, we present a novel deep learning method, called the Dst Transformer, to perform short-term, 1-6 hour ahead, forecasting of the Dst index based on the solar wind parameters provided by the NASA Space Science Data Coordinated Archive. The Dst Transformer combines a multi-head attention layer with Bayesian inference, which is capable of quantifying both aleatoric uncertainty and epistemic uncertainty when making Dst predictions. Experimental results show that the proposed Dst Transformer outperforms related machine learning methods in terms of the root mean square error and R-squared. Furthermore, the Dst Transformer can produce both data and model uncertainty quantification results, which can not be done by the existing methods. To our knowledge, this is the first time that Bayesian deep learning has been used for Dst index forecasting.
翻訳日:2022-05-06 15:21:13 公開日:2022-05-05
# 車両経路問題を解決するための学習:調査

Learning to Solve Vehicle Routing Problems: A Survey ( http://arxiv.org/abs/2205.02453v1 )

ライセンス: Link先を確認
Aigerim Bogyrbayeva, Meraryslan Meraliyev, Taukekhan Mustakhov, Bissenbay Dauletbayev(参考訳) 本稿では,NP-hard Vehicle Routing Problems (VRPs) を解くための機械学習手法の体系的概要を提供する。 近年、機械学習と運用研究コミュニティの双方から、純粋な学習方法によるVRPの解決や、従来の手作りのヒューリスティックと組み合わせることで、大きな関心を集めている。 本稿では,学習パラダイム,解構造,基礎モデル,アルゴリズムに関する研究の分類について述べる。 本稿では,従来の手法との競争性を実証する最先端手法の結果を詳述する。 本稿では,現代の交通システムの課題を克服するために,学習に基づくソリューションを組み込むための今後の研究方向について概説する。

This paper provides a systematic overview of machine learning methods applied to solve NP-hard Vehicle Routing Problems (VRPs). Recently, there has been a great interest from both machine learning and operations research communities to solve VRPs either by pure learning methods or by combining them with the traditional hand-crafted heuristics. We present the taxonomy of the studies for learning paradigms, solution structures, underlying models, and algorithms. We present in detail the results of the state-of-the-art methods demonstrating their competitiveness with the traditional methods. The paper outlines the future research directions to incorporate learning-based solutions to overcome the challenges of modern transportation systems.
翻訳日:2022-05-06 15:20:54 公開日:2022-05-05
# KGTuner:知識グラフ学習のための効率的なハイパーパラメータ探索

KGTuner: Efficient Hyper-parameter Search for Knowledge Graph Learning ( http://arxiv.org/abs/2205.02460v1 )

ライセンス: Link先を確認
Yongqi Zhang and Zhanke Zhou and Quanming Yao and Yong Li(参考訳) 超パラメータ(HP)は知識グラフ(KG)学習において重要であるが、既存の手法では効率的に探索できない。 この問題を解決するために,まず異なるhpの特性を解析し,小部分グラフから全グラフへの転送能力を測定する。 そこで本研究では,二段階探索アルゴリズムkgtunerを提案する。これは,小サブグラフ上のhp構成を第1段で効率的に探索し,第2段の大規模フルグラフを微調整するための最上位構成を転送する。 実験の結果, オープングラフベンチマークにおいて, 大規模KG上での4つの埋め込みモデルの平均相対的改善値である {9.1\%} が得られる。

While hyper-parameters (HPs) are important for knowledge graph (KG) learning, existing methods fail to search them efficiently. To solve this problem, we first analyze the properties of different HPs and measure the transfer ability from small subgraph to the full graph. Based on the analysis, we propose an efficient two-stage search algorithm KGTuner, which efficiently explores HP configurations on small subgraph at the first stage and transfers the top-performed configurations for fine-tuning on the large full graph at the second stage. Experiments show that our method can consistently find better HPs than the baseline algorithms within the same time budget, which achieves {9.1\%} average relative improvement for four embedding models on the large-scale KGs in open graph benchmark.
翻訳日:2022-05-06 15:20:43 公開日:2022-05-05
# LDSA:複数エージェント強化学習における動的サブタスク割り当ての学習

LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2205.02561v1 )

ライセンス: Link先を確認
Mingyu Yang, Jian Zhao, Xunhan Hu, Wengang Zhou, Houqiang Li(参考訳) 協調型マルチエージェント強化学習(MARL)は近年顕著な進歩を遂げている。 効率性とスケーラビリティをトレーニングするために、ほとんどのMARLアルゴリズムは全てのエージェントに同じポリシーや価値ネットワークを共有する。 しかし、多くの複雑なマルチエージェントタスクは、様々なサブタスクを扱う様々な特定の能力を持つエージェントを必要とする。 パラメータを無差別に共有することは、すべてのエージェント間で同様の振る舞いを生じさせ、探索効率を制限し、最終的なパフォーマンスを損なう。 学習の複雑さとエージェントの行動の多様性をバランスさせるため,協調marlで動的サブタスク割り当て(ldsa)を学ぶための新しい枠組みを提案する。 具体的には,まず,各サブタスクの同一性に応じてベクトル表現を構成するサブタスクエンコーダを紹介する。 エージェントを異なるサブタスクに合理的に割り当てるために,同じサブタスクに類似するエージェントを動的にグループ化する機能ベースのサブタスク選択戦略を提案する。 次に、サブタスクポリシーをその表現に条件付けし、同じサブタスクを扱うエージェントが、サブタスクポリシーをトレーニングするための経験を共有する。 さらに,サブタスク間の表現差異を増大させるために2つの正規化器を導入し,各サブタスクを頻繁に変更してトレーニングを安定させるエージェントを回避する。 実験の結果,LDSAはより優れたコラボレーションのための合理的かつ効果的なサブタスク割り当てを学習し,StarCraft IIマイクロマネジメントベンチマークの学習性能を著しく向上させることがわかった。

Cooperative multi-agent reinforcement learning (MARL) has made prominent progress in recent years. For training efficiency and scalability, most of the MARL algorithms make all agents share the same policy or value network. However, many complex multi-agent tasks require agents with a variety of specific abilities to handle different subtasks. Sharing parameters indiscriminately may lead to similar behaviors across all agents, which will limit the exploration efficiency and be detrimental to the final performance. To balance the training complexity and the diversity of agents' behaviors, we propose a novel framework for learning dynamic subtask assignment (LDSA) in cooperative MARL. Specifically, we first introduce a subtask encoder that constructs a vector representation for each subtask according to its identity. To reasonably assign agents to different subtasks, we propose an ability-based subtask selection strategy, which can dynamically group agents with similar abilities into the same subtask. Then, we condition the subtask policy on its representation and agents dealing with the same subtask share their experiences to train the subtask policy. We further introduce two regularizers to increase the representation difference between subtasks and avoid agents changing subtasks frequently to stabilize training, respectively. Empirical results show that LDSA learns reasonable and effective subtask assignment for better collaboration and significantly improves the learning performance on the challenging StarCraft II micromanagement benchmark.
翻訳日:2022-05-06 15:20:26 公開日:2022-05-05
# pi-nlf:非負の潜在因子分析のための比例積分的アプローチ

PI-NLF: A Proportional-Integra l Approach for Non-negative Latent Factor Analysis ( http://arxiv.org/abs/2205.02591v1 )

ライセンス: Link先を確認
Ye Yuan and Xin Luo(参考訳) 高次元かつ不完全(HDI)行列は、多くのノード間の本質的に非負の相互作用を示す様々なビッグデータ関連アプリケーションにしばしば現れる。 非負の潜在因子モデル(NLF)は、学習プロセスが1つの潜在因子に依存し、非負の乗算的更新(SLF-NMU)アルゴリズムに依存するHDI行列への効率的な表現学習を実行する。 しかし、SLF-NMUアルゴリズムは、過去の学習情報を適切に考慮することなく、現在の更新インクリメントに基づいて潜時因子を更新し、収束を遅くする。 各種応用における比例積分(PI)制御の顕著な成功に触発された本論文では, 比例積分型非負潜在因子モデル(PI-NLF)を提案する。 a) piコントローラの原理に従って過去の更新インクリメントを考慮し、インクリメントインクリメント(ir)機構を確立すること。 b) 結果モデルの収束率を高速化するためのirベースslf-nmu(isn)アルゴリズムの設計 4つのHDIデータセットに関する実証的研究により、PI-NLFモデルは、HDI行列の欠落データに対する計算効率と推定精度の両方において、最先端モデルよりも優れていることが示された。 そこで本研究では,誤差フィードバック制御による非負学習アルゴリズムの性能向上の可能性を明らかにする。

A high-dimensional and incomplete (HDI) matrix frequently appears in various big-data-related applications, which demonstrates the inherently non-negative interactions among numerous nodes. A non-negative latent factor (NLF) model performs efficient representation learning to an HDI matrix, whose learning process mostly relies on a single latent factor-dependent, non-negative and multiplicative update (SLF-NMU) algorithm. However, an SLF-NMU algorithm updates a latent factor based on the current update increment only without appropriate considerations of past learning information, resulting in slow convergence. Inspired by the prominent success of a proportional-integra l (PI) controller in various applications, this paper proposes a Proportional-Integra l-incorporated Non-negative Latent Factor (PI-NLF) model with two-fold ideas: a) establishing an Increment Refinement (IR) mechanism via considering the past update increments following the principle of a PI controller; and b) designing an IR-based SLF-NMU (ISN) algorithm to accelerate the convergence rate of a resultant model. Empirical studies on four HDI datasets demonstrate that a PI-NLF model outperforms the state-of-the-art models in both computational efficiency and estimation accuracy for missing data of an HDI matrix. Hence, this study unveils the feasibility of boosting the performance of a non-negative learning algorithm through an error feedback controller.
翻訳日:2022-05-06 15:20:01 公開日:2022-05-05
# 帰納的微分による適応ガウス過程のメタラーニング特徴表現

Meta-learning Feature Representations for Adaptive Gaussian Processes via Implicit Differentiation ( http://arxiv.org/abs/2205.02708v1 )

ライセンス: Link先を確認
Wenlin Chen, Austin Tripp, Jos\'e Miguel Hern\'andez-Lobato(参考訳) 本稿では,メタラーニングと従来の学習の補間によって深層カーネルを学習する一般的なフレームワークであるAdaptive Deep Kernel Fitting (ADKF)を提案する。 このアプローチでは、タスク間で一般的に有用な特徴表現をメタ学習するバイレベル最適化の目標を採用しており、その上で推定されるタスク固有のガウス過程モデルがタスク全体の平均で最も低い予測損失を達成している。 ネスト最適化問題は暗黙関数定理を用いて解く。 本稿では,ADKFがDeep Kernel LearningとDeep Kernel Transferを特別なケースとして含んでいることを示す。 adkfは完全に汎用的な手法であるが、創薬問題には特に適しており、様々な実世界における分子特性予測タスクやドメイン外分子最適化タスクにおいて、従来の最先端手法を大幅に上回っていることを証明している。

We propose Adaptive Deep Kernel Fitting (ADKF), a general framework for learning deep kernels by interpolating between meta-learning and conventional learning. Our approach employs a bilevel optimization objective where we meta-learn feature representations that are generally useful across tasks, in the sense that task-specific Gaussian process models estimated on top of such features achieve the lowest possible predictive loss on average across tasks. We solve the resulting nested optimization problem using the implicit function theorem. We show that ADKF contains Deep Kernel Learning and Deep Kernel Transfer as special cases. Although ADKF is a completely general method, we argue that it is especially well-suited for drug discovery problems and demonstrate that it significantly outperforms previous state-of-the-art methods on a variety of real-world few-shot molecular property prediction tasks and out-of-domain molecular optimization tasks.
翻訳日:2022-05-06 15:18:26 公開日:2022-05-05
# ネットワーク情報の流れをもつ一般和確率ゲーム

General sum stochastic games with networked information flows ( http://arxiv.org/abs/2205.02760v1 )

ライセンス: Link先を確認
Sarah H.Q. Li and Lillian J. Ratliff and Peeyush Kumar(参考訳) サプライチェーン管理、流行、ソーシャルネットワークといったアプリケーションから着想を得た私たちは、これらのドメインに共通する3つの重要な特徴に対処する確率ゲームモデルを定式化します。 1)ネットワーク構造型プレーヤーインタラクション 2対の混合協力と競技者間の競争、及び 3) 個人の意思決定に限定したグローバル情報。 これらの特徴が組み合わさって、深層学習に基づくマルチエージェント強化学習(MARL)アルゴリズムによって得られるブラックボックスアプローチに重大な課題が生じる。 ペアワイズ汎用和目標と非対称情報構造を持つネットワーク化された確率ゲームを作成し,個別学習や集中学習分散実行といった異なるマルルパラダイムの結果に対する情報可用性の影響を実証的に検討する。

Inspired by applications such as supply chain management, epidemics, and social networks, we formulate a stochastic game model that addresses three key features common across these domains: 1) network-structured player interactions, 2) pair-wise mixed cooperation and competition among players, and 3) limited global information toward individual decision-making. In combination, these features pose significant challenges for black box approaches taken by deep learning-based multi-agent reinforcement learning (MARL) algorithms and deserve more detailed analysis. We formulate a networked stochastic game with pair-wise general sum objectives and asymmetrical information structure, and empirically explore the effects of information availability on the outcomes of different MARL paradigms such as individual learning and centralized learning decentralized execution.
翻訳日:2022-05-06 15:18:11 公開日:2022-05-05
# sequence-to-sequence learning による製造誤差の因果関係の同定

Identifying Cause-and-Effect Relationships of Manufacturing Errors using Sequence-to-Sequence Learning ( http://arxiv.org/abs/2205.02827v1 )

ライセンス: Link先を確認
Jeff Reimer, Yandong Wang, Sofiane Laridi, Juergen Urdich, S\"oren Wilmsmeier, Gregory Palmer(参考訳) 車体製造において、車体のプレフォームシート金属部品を全自動生産ライン上に組み立てる。 体は連続して複数のステーションを通過し、注文に応じて処理される。 注文のタイムリーな完了は、スケジュールされたサイクル時間内での個々の駅ベースの操作に依存する。 ある駅でエラーが発生した場合、それはノックオン効果があり、下流の駅で遅延が発生する。 私たちの知る限りでは、この設定でソースとノックオンのエラーを自動的に区別する方法はなく、それらの間の因果関係を確立する方法もない。 生産データ取得システムによって収集された条件のリアルタイム情報を利用して、ディープラーニングを用いてソースとノックオンエラーのリンクを確立する新しい車両製造分析システムを提案する。 3つのシーケンス・トゥ・シーケンスモデルをベンチマークし、この文脈でモデルを評価するための新しい複合時間重み付けアクションメトリックを導入する。 我々は、Volkswagen Commercial Vehiclesによって記録された実世界の自動車生産データセットに関する枠組みを評価した。 驚いたことに、シーケンスの71.68%にはソースまたはノックオンエラーが含まれている。 Seq2seqモデルトレーニングに関して、Transformerはこの領域においてLSTMやGRUよりも優れた性能を示しており、特に将来の行動の持続時間に関する予測範囲が増加する。

In car-body production the pre-formed sheet metal parts of the body are assembled on fully-automated production lines. The body passes through multiple stations in succession, and is processed according to the order requirements. The timely completion of orders depends on the individual station-based operations concluding within their scheduled cycle times. If an error occurs in one station, it can have a knock-on effect, resulting in delays on the downstream stations. To the best of our knowledge, there exist no methods for automatically distinguishing between source and knock-on errors in this setting, as well as establishing a causal relation between them. Utilizing real-time information about conditions collected by a production data acquisition system, we propose a novel vehicle manufacturing analysis system, which uses deep learning to establish a link between source and knock-on errors. We benchmark three sequence-to-sequence models, and introduce a novel composite time-weighted action metric for evaluating models in this context. We evaluate our framework on a real-world car production dataset recorded by Volkswagen Commercial Vehicles. Surprisingly we find that 71.68% of sequences contain either a source or knock-on error. With respect to seq2seq model training, we find that the Transformer demonstrates a better performance compared to LSTM and GRU in this domain, in particular when the prediction range with respect to the durations of future actions is increased.
翻訳日:2022-05-06 15:17:56 公開日:2022-05-05
# オープンドメイン用語知識の領域ベースマージ

Region-Based Merging of Open-Domain Terminological Knowledge ( http://arxiv.org/abs/2205.02660v1 )

ライセンス: Link先を確認
Zied Bouraoui, Sebastien Konieczny, Thanh Ma, Nicolas Schwind, Ivan Varzinczak(参考訳) 本稿では,オープンドメインの用語知識を融合する新しい手法を提案する。 これは、位相空間内の領域を表現し、それらの集合論的な関係を推論するために使われる形式主義である領域接続計算(RCC5)を利用する。 この目的のために,我々はまず,複数の相反する可能性のある情報源から提供される用語学知識を忠実に領域空間に翻訳することを提案する。 マージはこれらの空間上で実行され、その結果は入力元の基礎となる言語に変換される。 我々のアプローチは、矛盾する知識を原則的に扱いながら、RCC5の表現性と柔軟性の恩恵を受けることができます。

This paper introduces a novel method for merging open-domain terminological knowledge. It takes advantage of the Region Connection Calculus (RCC5), a formalism used to represent regions in a topological space and to reason about their set-theoretic relationships. To this end, we first propose a faithful translation of terminological knowledge provided by several and potentially conflicting sources into region spaces. The merging is then performed on these spaces, and the result is translated back into the underlying language of the input sources. Our approach allows us to benefit from the expressivity and the flexibility of RCC5 while dealing with conflicting knowledge in a principled way.
翻訳日:2022-05-06 15:17:07 公開日:2022-05-05
# 未知なソフト介入を伴うベイズ因果推論のための介入ベイズガウス等価スコア

The interventional Bayesian Gaussian equivalent score for Bayesian causal inference with unknown soft interventions ( http://arxiv.org/abs/2205.02602v1 )

ライセンス: Link先を確認
Jack Kuipers and Giusi Moffa(参考訳) システムを管理する因果関係を記述することは、多くの科学分野における基本的な課題であり、実験的な研究によって理想的に解決される。 しかし、介入シナリオ下でのデータを取得することは必ずしも可能ではなく、純粋な観測データから因果関係を発見することは、非常に難しい。 ゲノミクスのような特定の環境では、不均一な研究条件からのデータがあり、ソフトな(部分的な)介入は研究変数のサブセットにのみ関係しており、その効果とターゲットはおそらく不明である。 実験的および観察的な研究からのデータを組み合わせることで、両方のドメインを活用し、因果構造の識別性を改善することができる。 この目的のために、観測データと干渉データとの混合に対する介入BGeスコアを定義し、介入の目的と効果が不明である可能性がある。 このアプローチを実証するために、シミュレーションとデータ分析アプリケーションの両方で、その性能を最先端のアルゴリズムと比較する。 提案手法はベイズ的視点からDAG構造の後方分布の完全な特徴付けを導いたものである。 dagのサンプルを与えられた場合、介入効果の完全な後方分布を自動導出することもできる。 これにより、構造およびパラメータ推定の両方における不確かさを効果的に捉えることができる。 シミュレーションと解析を再現するコードはgithub.com/jackkuipe rs/iBGeで公開されている。

Describing the causal relations governing a system is a fundamental task in many scientific fields, ideally addressed by experimental studies. However, obtaining data under intervention scenarios may not always be feasible, while discovering causal relations from purely observational data is notoriously challenging. In certain settings, such as genomics, we may have data from heterogeneous study conditions, with soft (partial) interventions only pertaining to a subset of the study variables, whose effects and targets are possibly unknown. Combining data from experimental and observational studies offers the opportunity to leverage both domains and improve on the identifiability of causal structures. To this end, we define the interventional BGe score for a mixture of observational and interventional data, where the targets and effects of intervention may be unknown. To demonstrate the approach we compare its performance to other state-of-the-art algorithms, both in simulations and data analysis applications. Prerogative of our method is that it takes a Bayesian perspective leading to a full characterisation of the posterior distribution of the DAG structures. Given a sample of DAGs one can also automatically derive full posterior distributions of the intervention effects. Consequently the method effectively captures the uncertainty both in the structure and the parameter estimates. Codes to reproduce the simulations and analyses are publicly available at github.com/jackkuipe rs/iBGe
翻訳日:2022-05-06 15:16:58 公開日:2022-05-05
# (参考訳) リアルタイムマップビューセマンティックセグメンテーションのためのクロスビュー変換器 [全文訳有]

Cross-view Transformers for real-time Map-view Semantic Segmentation ( http://arxiv.org/abs/2205.02833v1 )

ライセンス: CC BY 4.0
Brady Zhou, Philipp Kr\"ahenb\"uhl(参考訳) 複数のカメラからのマップビューセマンティックセマンティックセグメンテーションの効率的な注意モデルであるクロスビュートランスフォーマーを提案する。 我々のアーキテクチャは、カメラを意識したクロスビューアテンション機構を用いて、個々のカメラビューから標準地図ビュー表現へのマッピングを暗黙的に学習する。 各カメラは、本質的および極端的なキャリブレーションに依存する位置埋め込みを使用する。 これらの埋め込みにより、トランスフォーマーは幾何学的に明確にモデル化することなく、異なるビューのマッピングを学ぶことができる。 アーキテクチャは、各ビュー用の畳み込み画像エンコーダと、マップビュー意味セグメンテーションを推論するクロスビュートランスフォーマティブ層で構成されている。 私たちのモデルはシンプルで、簡単に並列化でき、リアルタイムで実行できます。 提示されたアーキテクチャはnuScenesデータセットの最先端で動作し、推論速度は4倍高速である。 コードはhttps://github.com/b radyz/cross_view_tra nsformersで入手できる。

We present cross-view transformers, an efficient attention-based model for map-view semantic segmentation from multiple cameras. Our architecture implicitly learns a mapping from individual camera views into a canonical map-view representation using a camera-aware cross-view attention mechanism. Each camera uses positional embeddings that depend on its intrinsic and extrinsic calibration. These embeddings allow a transformer to learn the mapping across different views without ever explicitly modeling it geometrically. The architecture consists of a convolutional image encoder for each view and cross-view transformer layers to infer a map-view semantic segmentation. Our model is simple, easily parallelizable, and runs in real-time. The presented architecture performs at state-of-the-art on the nuScenes dataset, with 4x faster inference speeds. Code is available at https://github.com/b radyz/cross_view_tra nsformers.
翻訳日:2022-05-06 15:14:55 公開日:2022-05-05
# bort: エンドツーエンドタスク指向ダイアログのバック・アンド・デノージングレコンストラクション

BORT: Back and Denoising Reconstruction for End-to-End Task-Oriented Dialog ( http://arxiv.org/abs/2205.02471v1 )

ライセンス: Link先を確認
Haipeng Sun, Junwei Bao, Youzheng Wu, Xiaodong He(参考訳) 典型的なエンドツーエンドのタスク指向のダイアログシステムは、コンテキストをダイアログ状態に転送し、特に低リソースシナリオにおいて、以前に生成された不正確なダイアログ状態とレスポンスの両方からエラーの伝搬の問題に直面する応答を生成する。 これらの問題を緩和するために,タスク指向対話システムにおけるバック/デノベーション型再構築手法BORTを提案する。 ダイアログ状態の精度を改善するために、不正確なダイアログ状態が対応するインプットコンテキストを回復できないため、元のインプットコンテキストを生成されたダイアログ状態から再構築するためにバック再構成を用いる。 モデルの復調能力を高め、誤り伝播の影響を低減するため、劣化したダイアログ状態と応答を復元するために復調再構成を用いる。 MultiWOZ 2.0とCamRest676で実施された大規模な実験はBORTの有効性を示した。 さらにBORTは、ゼロショットドメインと低リソースのシナリオにおいて、その高度な能力を実証している。

A typical end-to-end task-oriented dialog system transfers context into dialog state, and upon which generates a response, which usually faces the problem of error propagation from both previously generated inaccurate dialog states and responses, especially in low-resource scenarios. To alleviate these issues, we propose BORT, a back and denoising reconstruction approach for end-to-end task-oriented dialog system. Squarely, to improve the accuracy of dialog states, back reconstruction is used to reconstruct the original input context from the generated dialog states since inaccurate dialog states cannot recover the corresponding input context. To enhance the denoising capability of the model to reduce the impact of error propagation, denoising reconstruction is used to reconstruct the corrupted dialog state and response. Extensive experiments conducted on MultiWOZ 2.0 and CamRest676 show the effectiveness of BORT. Furthermore, BORT demonstrates its advanced capabilities in the zero-shot domain and low-resource scenarios.
翻訳日:2022-05-06 15:02:24 公開日:2022-05-05
# ニューラルテキストの退化を緩和するシンプルなコントラスト学習目標

A Simple Contrastive Learning Objective for Alleviating Neural Text Degeneration ( http://arxiv.org/abs/2205.02517v1 )

ライセンス: Link先を確認
Shaojie Jiang, Ruqing Zhang, Svitlana Vakulenko, Maarten de Rijke(参考訳) クロスエントロピーの目的は、自己回帰言語モデル(LM)のための全目的学習目標であることが証明された。 しかし、問題トークンのペナル化を考慮せずに、クロスエントロピーを用いて訓練されたLMはテキストの劣化を示す。 これを解決するために、LMにより低い確率を割り当てる可能性のあるトークンを強制するために、異質な訓練が提案されている。 しかし、ラベルトークンとありそうもないトークン候補との関係を考慮せず、変性の限界的な改善を示す。 本稿では,クロスエントロピーの利点を継承し,その限界を回避した新しい対照トークン学習目標を提案する。 鍵となる考え方は、LMに各ステップでラベルトークンの確率を高くし、負の候補の確率を低くすることである。 言語モデリングとオープンドメイン対話生成タスクに関する包括的実験により、提案するコントラストトークンの目的が反復的なテキストが少なく、非接触訓練よりも世代品質が高く、新たな最先端のパフォーマンスを実現していることが示された。

The cross-entropy objective has proved to be an all-purpose training objective for autoregressive language models (LMs). However, without considering the penalization of problematic tokens, LMs trained using cross-entropy exhibit text degeneration. To address this, unlikelihood training has been proposed to force unlikely tokens to be assigned a low probability by a LM. But unlikelihood does not consider the relationship between the label tokens and the unlikely token candidates, thus showing marginal improvements in degeneration. We propose a new contrastive token learning objective that inherits the advantages of cross-entropy and unlikelihood training and avoids their limitations. The key idea is to force a LM to generate high probabilities for label tokens at each step while low probabilities of negative candidates. Comprehensive experiments on language modeling and open-domain dialogue generation tasks show that the proposed contrastive token objective yields less repetitive texts, with a higher generation quality than unlikelihood training, achieving the new state-of-the-art performance.
翻訳日:2022-05-06 15:02:07 公開日:2022-05-05
# NLPバイアス研究における「ジェンダー」の理論

Theories of "Gender" in NLP Bias Research ( http://arxiv.org/abs/2205.02526v1 )

ライセンス: Link先を確認
Hannah Devinney, Jenny Bj\"orklund, Henrik Bj\"orklund(参考訳) 自然言語処理(NLP)技術に社会的バイアスを包含し、永続する技術に対する関心が高まり、研究分野は豊かで急速に成長している。 ジェンダーバイアスは分析中の中心的なバイアスの1つであるが、これまで「ジェンダー」がこの分野でどのように理論化されるかの包括的な分析は行われていない。 我々は,NLPにおけるジェンダーバイアスに関する200近い記事を調査し,ジェンダーが明示的にジェンダーを概念化する方法(例:用語の定義)と暗黙的に(例:実際にジェンダーがどのように運用されているか)を探索する。 思考の軌跡をよりよく把握するために,これらの項目を時間ごとに2つのセクションに分けた。 論文の大半は、たとえ「バイアス」を明確に定義したとしても、性別に関する理論を明示していない。 多くの人は、トランスジェンダー、ノンバイナリ、およびインターセックスの人々の存在と経験を無視する方法で、性の特徴、社会的性別、および言語的性別を共用する。 ジェンダーが複雑な現実であることを認める文言の2つの時間節の間には増加があるが、この認識を実践する記事はほとんどない。 これらの分析に加えて, 学際研究の促進や, ジェンダー研究からの理論や方法論を取り入れるために, 具体的な提言を行った。 われわれの期待は、NLPにおけるジェンダーバイアスの研究をより包括的に行うことだ。

The rise of concern around Natural Language Processing (NLP) technologies containing and perpetuating social biases has led to a rich and rapidly growing area of research. Gender bias is one of the central biases being analyzed, but to date there is no comprehensive analysis of how "gender" is theorized in the field. We survey nearly 200 articles concerning gender bias in NLP to discover how the field conceptualizes gender both explicitly (e.g. through definitions of terms) and implicitly (e.g. through how gender is operationalized in practice). In order to get a better idea of emerging trajectories of thought, we split these articles into two sections by time. We find that the majority of the articles do not make their theorization of gender explicit, even if they clearly define "bias." Almost none use a model of gender that is intersectional or inclusive of nonbinary genders; and many conflate sex characteristics, social gender, and linguistic gender in ways that disregard the existence and experience of trans, nonbinary, and intersex people. There is an increase between the two time-sections in statements acknowledging that gender is a complicated reality, however, very few articles manage to put this acknowledgment into practice. In addition to analyzing these findings, we provide specific recommendations to facilitate interdisciplinary work, and to incorporate theory and methodology from Gender Studies. Our hope is that this will produce more inclusive gender bias research in NLP.
翻訳日:2022-05-06 15:01:47 公開日:2022-05-05
# LUNA:対話状態追跡のためのスロットツインアライメント学習

LUNA: Learning Slot-Turn Alignment for Dialogue State Tracking ( http://arxiv.org/abs/2205.02550v1 )

ライセンス: Link先を確認
Yifan Wang, Jing Zhao, Junwei Bao, Chaoqun Duan, Youzheng Wu, Xiaodong He(参考訳) 対話状態追跡(DST)は、対話履歴から現在の対話状態を予測することを目的としている。 既存のメソッドは通常、すべての対話の発話を利用して、各スロットの値を割り当てる。 これは、対話履歴の無関係な発話からもたらされる情報によって、最適でない結果につながる可能性がある。 この問題に対処するため、sLot-tUrNアライメント拡張アプローチLUNAを提案する。 まず、各スロットを最も関連性の高い発話に明示的にアライメントし、さらに全ての対話発話の代わりにこのアライメントされた発話に基づいて対応する値を予測する。 さらに,アライメントを容易にするスロット間の時間相関を学習するために,スロットランキング補助タスクを設計する。 マルチドメインタスク指向対話データセット(MultiWOZ 2.0,MultiWOZ 2.1,MultiWOZ 2.2)について総合実験を行った。 その結果、LUNAはこれらのデータセット上で新しい最先端の結果を達成することがわかった。

Dialogue state tracking (DST) aims to predict the current dialogue state given the dialogue history. Existing methods generally exploit the utterances of all dialogue turns to assign value for each slot. This could lead to suboptimal results due to the information introduced from irrelevant utterances in the dialogue history, which may be useless and can even cause confusion. To address this problem, we propose LUNA, a sLot-tUrN Alignment enhanced approach. It first explicitly aligns each slot with its most relevant utterance, then further predicts the corresponding value based on this aligned utterance instead of all dialogue utterances. Furthermore, we design a slot ranking auxiliary task to learn the temporal correlation among slots which could facilitate the alignment. Comprehensive experiments are conducted on multi-domain task-oriented dialogue datasets, i.e., MultiWOZ 2.0, MultiWOZ 2.1, and MultiWOZ 2.2. The results show that LUNA achieves new state-of-the-art results on these datasets.
翻訳日:2022-05-06 15:01:24 公開日:2022-05-05
# オープンドメイン応答生成のためのマルチドメインコーパス学習のバランス

Balancing Multi-Domain Corpora Learning for Open-Domain Response Generation ( http://arxiv.org/abs/2205.02570v1 )

ライセンス: Link先を確認
Yujie Xing, Jinglun Cai, Nils Barlaug, Peng Liu, Jon Atle Gulla(参考訳) オープンドメインの会話システムは、複数のドメインで等しく良い応答を生成すると仮定される。 従来は1つのコーパスで優れた性能を発揮していたが、異なるドメインからの複数のコーパスのトレーニングと評価は少ない。 本稿では,複数ドメインのコーパス毎に関連応答を生成する手法について検討する。 まず,複数のコーパスをベースラインとするインターリーブ学習について検討する。 次に,各コーパスを一意なコーパス埋め込みでエンコードする,ラベル付き学習とマルチタスクラベル付き学習の2つの多領域学習法について検討した。 さらに,特定のコーパスに対する単語の相対的重要性を他のコーパスと比較して測定する新しい単語レベルの重み付けであるDomain-specific Frequency (DF)を提案する。 本研究では,dfを損失関数に統合する重み付き学習を提案する。 また,新しい評価指標としてdfを採用する。 実験結果から,本手法は自動評価と人的評価の両方において有意な改善が得られた。 再現性のためにコードとデータを共有し

Open-domain conversational systems are assumed to generate equally good responses on multiple domains. Previous work achieved good performance on the single corpus, but training and evaluating on multiple corpora from different domains are less studied. This paper explores methods of generating relevant responses for each of multiple multi-domain corpora. We first examine interleaved learning which intermingles multiple corpora as the baseline. We then investigate two multi-domain learning methods, labeled learning and multi-task labeled learning, which encode each corpus through a unique corpus embedding. Furthermore, we propose Domain-specific Frequency (DF), a novel word-level importance weight that measures the relative importance of a word for a specific corpus compared to other corpora. Based on DF, we propose weighted learning, a method that integrates DF to the loss function. We also adopt DF as a new evaluation metric. Extensive experiments show that our methods gain significant improvements on both automatic and human evaluation. We share our code and data for reproducibility
翻訳日:2022-05-06 15:01:06 公開日:2022-05-05
# METGEN: Answer Explanationのためのモジュールベースのentailment Tree生成フレームワーク

METGEN: A Module-Based Entailment Tree Generation Framework for Answer Explanation ( http://arxiv.org/abs/2205.02593v1 )

ライセンス: Link先を確認
Ruixin Hong, Hongming Zhang, Xintong Yu, Changshui Zhang(参考訳) 知識から予測された回答への推論連鎖を知ることは、説明可能な質問応答(QA)システムを構築するのに役立つ。 QA説明の進歩は、複数のentailmentステップからなるentailment treeで回答を説明することを提案する。 現在の作業では、エンドツーエンドの生成モデルによる帰属木の生成が提案されているが、生成されたツリーのステップは制約されておらず、信頼性に欠ける可能性がある。 本稿では,複数のモジュールと推論コントローラを備えたモジュールベースのEntailment Tree GENerationフレームワークMETGENを提案する。 質問といくつかのサポート知識が与えられると、metgenは、別々のモジュールで1ステップの補足を行い、コントローラで推論フローを選択することで、反復的に補足ツリーを生成することができる。 各モジュールは特定のエンテーメント推論を実行するためにガイドされるため、METGENによって生成されるステップはより信頼性が高く有効である。 標準ベンチマーク実験の結果、METGENは従来の最先端モデルよりも9%しか性能が良くないことがわかった。

Knowing the reasoning chains from knowledge to the predicted answers can help construct an explainable question answering (QA) system. Advances on QA explanation propose to explain the answers with entailment trees composed of multiple entailment steps. While current work proposes to generate entailment trees with end-to-end generative models, the steps in the generated trees are not constrained and could be unreliable. In this paper, we propose METGEN, a Module-based Entailment Tree GENeration framework that has multiple modules and a reasoning controller. Given a question and several supporting knowledge, METGEN can iteratively generate the entailment tree by conducting single-step entailment with separate modules and selecting the reasoning flow with the controller. As each module is guided to perform a specific type of entailment reasoning, the steps generated by METGEN are more reliable and valid. Experiment results on the standard benchmark show that METGEN can outperform previous state-of-the-art models with only 9% of the parameters.
翻訳日:2022-05-06 15:00:51 公開日:2022-05-05
# 階層型テキスト分類のためのグローバル・ローカル階層の展開

Exploiting Global and Local Hierarchies for Hierarchical Text Classification ( http://arxiv.org/abs/2205.02613v1 )

ライセンス: Link先を確認
Ting Jiang, Deqing Wang, Leilei Sun, Zhongzhi Chen, Fuzhen Zhuang, Qinghong Yang(参考訳) 階層的テキスト分類は、マルチラベルテキスト分類におけるラベル階層の活用を目的としている。 既存の手法は、ラベル階層を全てのラベルを含む静的階層構造として扱うグローバルビューでラベル階層をエンコードする。 グローバル階層は静的であり,テキストサンプルとは無関係であるため,階層情報の活用が困難である。 グローバルな階層とは対照的に,各テキストサンプルに対応する構造化対象ラベル階層としての局所的階層は動的であり,従来の手法では無視されていた。 グローバルな階層とローカルな階層を活用するため,グローバルな階層とローカルな階層の両方をモデル化するために,BERTの大規模パラメータと事前言語知識を利用するHBGL(Herarchy-guided BERT)を提案する。 さらに、HBGLは、意味的および階層的な情報をBERTと直接モデル化することで、意味的および階層的なモジュールの意図的な融合を避ける。 提案手法は最先端のHGCLRと比較して,3つのベンチマークデータセットにおいて大幅な改善を実現している。

Hierarchical text classification aims to leverage label hierarchy in multi-label text classification. Existing methods encode label hierarchy in a global view, where label hierarchy is treated as the static hierarchical structure containing all labels. Since global hierarchy is static and irrelevant to text samples, it makes these methods hard to exploit hierarchical information. Contrary to global hierarchy, local hierarchy as the structured target labels hierarchy corresponding to each text sample is dynamic and relevant to text samples, which is ignored in previous methods. To exploit global and local hierarchies, we propose Hierarchy-guided BERT with Global and Local hierarchies (HBGL), which utilizes the large-scale parameters and prior language knowledge of BERT to model both global and local hierarchies. Moreover, HBGL avoids the intentional fusion of semantic and hierarchical modules by directly modeling semantic and hierarchical information with BERT. Compared with the state-of-the-art method HGCLR, our method achieves significant improvement on three benchmark datasets.
翻訳日:2022-05-06 15:00:31 公開日:2022-05-05
# 再発によるN-gramの誘導

Implicit N-grams Induced by Recurrence ( http://arxiv.org/abs/2205.02724v1 )

ライセンス: Link先を確認
Xiaobing Sun and Wei Lu(参考訳) トランスフォーマなどの自己注意ベースのモデルは自然言語処理(nlp)のタスクで顕著な成功を収めているが、最近の研究では、シーケンシャル変換のモデリングに制限があることが判明している(hahn, 2020)。 RNNを解釈しようとする試みは数多くあったが、その内部メカニズムは完全には理解されておらず、どのようにしてシーケンシャルな特徴を捉えているのかという疑問はほとんど不明である。 本研究では,古典的n-grams特徴を想起させる隠れた状態に存在する説明可能な成分が実際に存在することを示す。 下流感情分析の課題から抽出したRNNの特徴を抽出し,否定や強調などの興味深い言語現象をモデル化できることを示した。 さらに,このようなn-gramコンポーネントを感情分析や言語モデリングなどのタスクにエンコーダとして単独で使用することの有効性について検討し,rnn全体のパフォーマンスに寄与する上で重要な役割を担っている可能性が示唆された。 我々の発見がRNNアーキテクチャの解釈可能性を高め、シーケンシャルデータのための新しいアーキテクチャの提案にインスピレーションを与えることを期待しています。

Although self-attention based models such as Transformers have achieved remarkable successes on natural language processing (NLP) tasks, recent studies reveal that they have limitations on modeling sequential transformations (Hahn, 2020), which may prompt re-examinations of recurrent neural networks (RNNs) that demonstrated impressive results on handling sequential data. Despite many prior attempts to interpret RNNs, their internal mechanisms have not been fully understood, and the question on how exactly they capture sequential features remains largely unclear. In this work, we present a study that shows there actually exist some explainable components that reside within the hidden states, which are reminiscent of the classical n-grams features. We evaluated such extracted explainable features from trained RNNs on downstream sentiment analysis tasks and found they could be used to model interesting linguistic phenomena such as negation and intensification. Furthermore, we examined the efficacy of using such n-gram components alone as encoders on tasks such as sentiment analysis and language modeling, revealing they could be playing important roles in contributing to the overall performance of RNNs. We hope our findings could add interpretability to RNN architectures, and also provide inspirations for proposing new architectures for sequential data.
翻訳日:2022-05-06 15:00:14 公開日:2022-05-05
# Entity Cloze by Date: LMが未知のエンティティについて知っていること

Entity Cloze By Date: What LMs Know About Unseen Entities ( http://arxiv.org/abs/2205.02832v1 )

ライセンス: Link先を確認
Yasumasa Onoe, Michael J.Q. Zhang, Eunsol Choi, Greg Durrett(参考訳) 言語モデル(LM)は通常、大規模なコーパスで一度訓練され、更新されずに数年間使用される。 しかし、ダイナミックな世界では、常に新しい実体が発生する。 本研究では,LMの事前学習時に存在しなかった新しいエンティティについて,LMが推論できることを分析する枠組みを提案する。 本論文は,その発祥日によって索引付けされたエンティティのデータセットを,英語のウィキペディア記事と組み合わせて作成し,各エンティティに関する文章を検索する。 これらの文中のマスク付きスパンにおけるLMの難易度を評価する。 このベンチマークでは,テキスト定義にアクセスできるようなエンティティに関するモデルの方が,より複雑度が低いことを示す。 実験の結果, lmsでは新たなエンティティの推論が難しいことが判明した。 エンティティ知識とテンポラリインデクシングに関する広範なカバレッジを考えると、私たちのデータセットは、その知識を変更または拡張するために設計されたlmsとテクニックを評価するために使用できます。 私たちの自動データ収集パイプラインは、ベンチマークを継続的に更新するために簡単に使用できます。

Language models (LMs) are typically trained once on a large-scale corpus and used for years without being updated. However, in a dynamic world, new entities constantly arise. We propose a framework to analyze what LMs can infer about new entities that did not exist when the LMs were pretrained. We derive a dataset of entities indexed by their origination date and paired with their English Wikipedia articles, from which we can find sentences about each entity. We evaluate LMs' perplexity on masked spans within these sentences. We show that models more informed about the entities, such as those with access to a textual definition of them, achieve lower perplexity on this benchmark. Our experimental results demonstrate that making inferences about new entities remains difficult for LMs. Given its wide coverage on entity knowledge and temporal indexing, our dataset can be used to evaluate LMs and techniques designed to modify or extend their knowledge. Our automatic data collection pipeline can be easily used to continually update our benchmark.
翻訳日:2022-05-06 14:59:11 公開日:2022-05-05
# AIシステムのモニタリング: 問題分析、フレームワーク、展望

Monitoring AI systems: A Problem Analysis, Framework and Outlook ( http://arxiv.org/abs/2205.02562v1 )

ライセンス: Link先を確認
Annet Onnes(参考訳) 知識に基づくシステムは、現実世界の機械やプロセスを監視するために使われてきた。 本稿では,他のAIシステムの動作を監視するための知識ベースシステムを提案する。 我々は,この新たな設定の課題分析をモチベーションとし,その後,この設定に関連する将来の研究を構造化する枠組みを提案する。 さらなる研究の方向性も議論されている。

Knowledge-based systems have been used to monitor machines and processes in the real world. In this paper we propose the use of knowledge-based systems to monitor other AI systems in operation. We motivate and provide a problem analysis of this novel setting and subsequently propose a framework that allows for structuring future research related to this setting. Several directions for further research are also discussed.
翻訳日:2022-05-06 14:58:54 公開日:2022-05-05
# 点雲の表面再構成:サーベイとベンチマーク

Surface Reconstruction from Point Clouds: A Survey and a Benchmark ( http://arxiv.org/abs/2205.02413v1 )

ライセンス: Link先を確認
Zhangjin Huang, Yuxin Wen, Zihao Wang, Jinjuan Ren, and Kui Jia(参考訳) 生の離散点雲観測による二次元多様体の連続面の再構成は長年の課題である。 問題は技術的に不備であり、実際の深度スキャンによって得られる点雲に様々な検知不能が現れることを考えると、さらに困難になる。 文献では,豊富な手法が提案されており,既存手法のレビューも行われている。 しかし、既存のレビューは共通のベンチマークに関する徹底的な調査に不足している。 本稿では, ディープラーニング表面再構成の新時代における既存手法を概観し, 評価することを目的とする。 この目的のために、我々は、合成データと実スキャンデータの両方からなる大規模なベンチマークデータセットをコントリビュートする。 構築されたベンチマークの既存手法を比較し,種々のスキャン欠陥に対する既存手法の堅牢性に特に注意を払うとともに,複雑な表面形状の再構築の観点から,異なる手法が一般化するかについても検討した。 我々の研究は、異なる方法が働く最良の条件を特定するのに役立ち、いくつかの経験的発見を示唆する。 例えば, 深層学習法はますます普及しているが, 意外なことに, 頑健性と一般化の両面で, 古典的手法がさらに優れていることが示唆されている。また, マルチビュースキャンによる点集合の誤調整, 表面点の欠如, 点アウトリーチが, 既存のすべての表面再構成法で未解決のままであることも示唆している。 私たちは、ベンチマークと研究が、将来の研究における新しいイノベーションのためのガイダンスとして、実践者にとっても価値があると期待しています。

Reconstruction of a continuous surface of two-dimensional manifold from its raw, discrete point cloud observation is a long-standing problem. The problem is technically ill-posed, and becomes more difficult considering that various sensing imperfections would appear in the point clouds obtained by practical depth scanning. In literature, a rich set of methods has been proposed, and reviews of existing methods are also provided. However, existing reviews are short of thorough investigations on a common benchmark. The present paper aims to review and benchmark existing methods in the new era of deep learning surface reconstruction. To this end, we contribute a large-scale benchmarking dataset consisting of both synthetic and real-scanned data; the benchmark includes object- and scene-level surfaces and takes into account various sensing imperfections that are commonly encountered in practical depth scanning. We conduct thorough empirical studies by comparing existing methods on the constructed benchmark, and pay special attention on robustness of existing methods against various scanning imperfections; we also study how different methods generalize in terms of reconstructing complex surface shapes. Our studies help identify the best conditions under which different methods work, and suggest some empirical findings. For example, while deep learning methods are increasingly popular, our systematic studies suggest that, surprisingly, a few classical methods perform even better in terms of both robustness and generalization; our studies also suggest that the practical challenges of misalignment of point sets from multi-view scanning, missing of surface points, and point outliers remain unsolved by all the existing surface reconstruction methods. We expect that the benchmark and our studies would be valuable both for practitioners and as a guidance for new innovations in future research.
翻訳日:2022-05-06 14:58:13 公開日:2022-05-05
# 組込みシステムにおけるリアルタイム交通信号と信号検出に向けて

Towards Real-time Traffic Sign and Traffic Light Detection on Embedded Systems ( http://arxiv.org/abs/2205.02421v1 )

ライセンス: Link先を確認
Oshada Jayasinghe, Sahan Hemachandra, Damith Anhettigama, Shenali Kariyawasam, Tharindu Wickremasinghe, Chalani Ekanayake, Ranga Rodrigo, Peshala Jayasekara(参考訳) 交通標識や交通信号検出に関する最近の研究は、複雑なシナリオにおける検出精度の向上に重点を置いているが、多くはリアルタイムのパフォーマンス、特に限られた計算資源の達成に失敗した。 本研究では,少人数,多数のクラス,複雑な道路シナリオなど,交通標識や交通光検出に関連する課題を効果的に解決する,単純なディープラーニングに基づくエンドツーエンド検出フレームワークを提案する。 我々はTensorRTを用いた検出モデルを最適化し、Robot Operating Systemと統合してNvidia Jetson AGX Xavierを組み込みデバイスとしてデプロイする。 システム全体では、毎秒63フレームという高い推論速度を達成し、リアルタイムに実行するシステムの能力を示しています。 さらに、スリランカにおける最初の大規模交通標識および交通信号検出データセットであるCeyRoを紹介する。 我々のデータセットは、7984の画像と10176のトラフィックサインと70のトラフィックサインと5のトラフィックライトクラスを含むトラフィックライトインスタンスで構成されています。 画像は1920 x 1080の高解像度で、天候や照明条件の異なる幅広い挑戦的な道路シナリオを捉えている。 私たちの作品はhttps://github.com/o shadajay/CeyRo.comで公開されています。

Recent work done on traffic sign and traffic light detection focus on improving detection accuracy in complex scenarios, yet many fail to deliver real-time performance, specifically with limited computational resources. In this work, we propose a simple deep learning based end-to-end detection framework, which effectively tackles challenges inherent to traffic sign and traffic light detection such as small size, large number of classes and complex road scenarios. We optimize the detection models using TensorRT and integrate with Robot Operating System to deploy on an Nvidia Jetson AGX Xavier as our embedded device. The overall system achieves a high inference speed of 63 frames per second, demonstrating the capability of our system to perform in real-time. Furthermore, we introduce CeyRo, which is the first ever large-scale traffic sign and traffic light detection dataset for the Sri Lankan context. Our dataset consists of 7984 total images with 10176 traffic sign and traffic light instances covering 70 traffic sign and 5 traffic light classes. The images have a high resolution of 1920 x 1080 and capture a wide range of challenging road scenarios with different weather and lighting conditions. Our work is publicly available at https://github.com/o shadajay/CeyRo.
翻訳日:2022-05-06 14:57:44 公開日:2022-05-05
# 多視点深度推定のための全ペア相関対応の活用

Exploiting Correspondences with All-pairs Correlations for Multi-view Depth Estimation ( http://arxiv.org/abs/2205.02481v1 )

ライセンス: Link先を確認
Kai Cheng, Hao Chen, Wei Yin, Guangkai Xu, Xuejin Chen(参考訳) 多視点深度推定は3次元世界の再構築と理解において重要な役割を果たす。 近年の学習手法は大きな進歩を遂げている。 しかしながら、マルチビュー深度推定は、基本的に対応ベース最適化問題であるが、従来の学習ベース手法では、ステレオ対応に基づく反復最適化の本質から逸脱して、コストボリュームとして対応性を構築して暗黙的に正規化する事前定義された奥行き仮説に主に依存している。 したがって、それらは不十分な正確さと一般化能力に苦しむ。 本稿では,より一般的な画像相関を探索し,深度推定のために動的に対応性を確立する。 我々は最適化過程を模倣した新しい反復多視点深度推定フレームワークを設計する。 1)基準画像と原画像との画素類似性を全対全相関としてモデル化する相関ボリューム構成モジュール 2) 2次元の光学的流れから深さを推定する流れに基づく深さ初期化モジュール 3) 異なる視点の点を再投影し, さらなる融合のための関連相関を効果的に取得し, 繰り返し深度更新のための融合相関を統合する新しい相関誘導深度改善モジュール。 事前定義された深度仮説がなければ、融合された相関関係は効率的な方法で多視点対応を確立し、深度改善をヒューリスティックに導く。 ScanNet,DeMoN,ETH3D, および7Scenesについて十分な実験を行い,多視点深度推定における手法の優位性とその最適化能力を示す。

Multi-view depth estimation plays a critical role in reconstructing and understanding the 3D world. Recent learning-based methods have made significant progress in it. However, multi-view depth estimation is fundamentally a correspondence-based optimization problem, but previous learning-based methods mainly rely on predefined depth hypotheses to build correspondence as the cost volume and implicitly regularize it to fit depth prediction, deviating from the essence of iterative optimization based on stereo correspondence. Thus, they suffer unsatisfactory precision and generalization capability. In this paper, we are the first to explore more general image correlations to establish correspondences dynamically for depth estimation. We design a novel iterative multi-view depth estimation framework mimicking the optimization process, which consists of 1) a correlation volume construction module that models the pixel similarity between a reference image and source images as all-to-all correlations; 2) a flow-based depth initialization module that estimates the depth from the 2D optical flow; 3) a novel correlation-guided depth refinement module that reprojects points in different views to effectively fetch relevant correlations for further fusion and integrate the fused correlation for iterative depth update. Without predefined depth hypotheses, the fused correlations establish multi-view correspondence in an efficient way and guide the depth refinement heuristically. We conduct sufficient experiments on ScanNet, DeMoN, ETH3D, and 7Scenes to demonstrate the superiority of our method on multi-view depth estimation and its best generalization ability.
翻訳日:2022-05-06 14:56:12 公開日:2022-05-05
# 注意型および画素間教師付き学習によるnir領域および可視領域におけるiris提示アタック検出

Intra and Cross-spectrum Iris Presentation Attack Detection in the NIR and Visible Domains Using Attention-based and Pixel-wise Supervised Learning ( http://arxiv.org/abs/2205.02573v1 )

ライセンス: Link先を確認
Meiling Fang, Fadi Boutros, Naser Damer(参考訳) アイリス提示攻撃検出(PAD)はアイリス認識システムに必須である。 近年のIris PADソリューションは、ディープラーニング技術を活用して優れた性能を実現している。 しかし、ほとんどの結果はデータベース内のシナリオで報告されており、そのようなソリューションがデータベースを横断してスペクトルをキャプチャできるかどうかは不明だ。 これらのPAD手法は、グローバルな情報学習を提供するが、局所的な差別的特徴の獲得を弱めるネットワークトレーニング中にバイナリラベルが監督されるため、過度に適合するリスクを負う。 本章では,新しい注目型深部画素二元監督法(A-PBS)を提案する。 a-pbsはピクセル単位で監督を行い、細粒度のピクセル/パッチレベルの手がかりと注意機構を捉え、ネットワークを誘導し、最も正確なパッド決定に寄与する領域を自動的に見つける。 6つのNIRと1つの可視光アイリスデータベース上で実験を行い、提案手法の有効性とロバスト性を示した。 さらに、詳細な分析のために、データベース内/クロスベースおよびスペクトル内/クロススペクトルで広範な実験を行う。 実験の結果,A-PBSアイリスPAD法の一般化可能性を示した。

Iris Presentation Attack Detection (PAD) is essential to secure iris recognition systems. Recent iris PAD solutions achieved good performance by leveraging deep learning techniques. However, most results were reported under intra-database scenarios and it is unclear if such solutions can generalize well across databases and capture spectra. These PAD methods run the risk of overfitting because of the binary label supervision during the network training, which serves global information learning but weakens the capture of local discriminative features. This chapter presents a novel attention-based deep pixel-wise binary supervision (A-PBS) method. A-PBS utilizes pixel-wise supervision to capture the fine-grained pixel/patch-level cues and attention mechanism to guide the network to automatically find regions where most contribute to an accurate PAD decision. Extensive experiments are performed on six NIR and one visible-light iris databases to show the effectiveness and robustness of proposed A-PBS methods. We additionally conduct extensive experiments under intra-/cross-databas e and intra-/cross-spectru m for detailed analysis. The results of our experiments indicates the generalizability of the A-PBS iris PAD approach.
翻訳日:2022-05-06 14:55:45 公開日:2022-05-05
# ブラウンフィールドプロセスのディジタイズのための技術図面上のテキスト検出

Text Detection on Technical Drawings for the Digitization of Brown-field Processes ( http://arxiv.org/abs/2205.02659v1 )

ライセンス: Link先を確認
Tobias Schlagenhauf, Markus Netzer, Jan Hillinger(参考訳) 本稿では,技術図面上のテキストを自動検出する問題に対処する。 技術的図面上のテキストの検出は、特にクローズドcad-camソリューションがまだ存在しないブラウンフィールドプロセスにおいて、自律生産マシンへの重要なステップである。 技術図面上のテキストの読み出しと検出のプロセスを自動化することで、紙ベースのプロセスによる非効率なメディア中断処理の労力が削減される。 しかし、技術図面上のテキストを自動的に検出する問題は、まだ解決されていない。 古典的検出・オブジェクト文字認識(OCR)ツールを用いた技術図面の内容の信頼性の低い検出は,技術図面の限られた数と内容のカプチャ様構造が主な原因である。 テキストはしばしば未知のシンボルと行による中断と組み合わせられる。 さらに、知的財産権と技術的ノウハウの問題のため、そのようなモデルをトレーニングするための文献で利用可能なアウトオブボックストレーニングデータセットは存在しない。 本稿では, ドメイン知識に基づく生成装置を組み合わせることで, 実写的な技術図面と最先端のオブジェクト検出モデルを組み合わせて, 技術図面上のテキスト検出問題を解く。 このジェネレータは、多種多様な人工的な技術図面を生成し、データ拡張ジェネレータとみなすことができる。 これらの人工図面はトレーニングに使用され、モデルは実際のデータでテストされる。 著者らは, 技術図面の人工的生成データにより, 検出精度が向上し, 図面数が増えることを示した。

This paper addresses the issue of autonomously detecting text on technical drawings. The detection of text on technical drawings is a critical step towards autonomous production machines, especially for brown-field processes, where no closed CAD-CAM solutions are available yet. Automating the process of reading and detecting text on technical drawings reduces the effort for handling inefficient media interruptions due to paper-based processes, which are often todays quasi-standard in brown-field processes. However, there are no reliable methods available yet to solve the issue of automatically detecting text on technical drawings. The unreliable detection of the contents on technical drawings using classical detection and object character recognition (OCR) tools is mainly due to the limited number of technical drawings and the captcha-like structure of the contents. Text is often combined with unknown symbols and interruptions by lines. Additionally, due to intellectual property rights and technical know-how issues, there are no out-of-the box training datasets available in the literature to train such models. This paper combines a domain knowledge-based generator to generate realistic technical drawings with a state-of-the-art object detection model to solve the issue of detecting text on technical drawings. The generator yields artificial technical drawings in a large variety and can be considered as a data augmentation generator. These artificial drawings are used for training, while the model is tested on real data. The authors show that artificially generated data of technical drawings improve the detection quality with an increasing number of drawings.
翻訳日:2022-05-06 14:55:25 公開日:2022-05-05
# Batch Artifact Scanning Protocol:CT(Computer d Tomography)を用いた大規模コレクションからオブジェクトの3次元モデルを高速に生成する新しい手法

The Batch Artifact Scanning Protocol: A new method using computed tomography (CT) to rapidly create three-dimensional models of objects from large collections en masse ( http://arxiv.org/abs/2205.02691v1 )

ライセンス: Link先を確認
Katrina Yezzi-Woodley, Jeff Calder, Mckenzie Sweno, Chloe Siewert, Peter J. Olver(参考訳) 人類学において、3次元イメージングの使用は、幅広い主要な問題に対処するために利用可能な道を広げるため、ますます一般的で広くなってきている。 3dモデルを共有することの容易さは、研究、文化遺産、教育、科学コミュニケーション、公的なエンゲージメントに大きな影響を与え、物理的標本の保存や、広くアクセス可能なデータベースへのコレクションのアーカイブにも貢献している。 現在の走査プロトコルは、必要な研究品質の3Dモデルを作成することができるが、大規模なコレクションを扱う場合、時間と労力が集中的であり実用的ではない。 本稿では,医療用CTスキャナーを用いて3次元モデルを高速に作成するために開発された,合理化されたバッチアーティファクトスキャンプロトコルについて述べる。 この方法は様々な材料タイプで使用できるが、実験的に破断した義肢の骨の大規模なコレクションを用いている。 バッチ・アーティファクト・スキャニング・プロトコルを用いて,2,474個の骨片の3dモデルを1標本あたり3ドル未満の速度で効率的に作成することができた。

Within anthropology, the use of three-dimensional (3D) imaging has become increasingly standard and widespread since it broadens the available avenues for addressing a wide range of key issues. The ease with which 3D models can be shared has had major impacts for research, cultural heritage, education, science communication, and public engagement, as well as contributing to the preservation of the physical specimens and archiving collections in widely accessible data bases. Current scanning protocols have the ability to create the required research quality 3D models; however, they tend to be time and labor intensive and not practical when working with large collections. Here we describe a streamlined, Batch Artifact Scanning Protocol we have developed to rapidly create 3D models using a medical CT scanner. Though this method can be used on a variety of material types, we use a large collection of experimentally broken ungulate limb bones. Using the Batch Artifact Scanning Protocol, we were able to efficiently create 3D models of 2,474 bone fragments at a rate of less than $3$ minutes per specimen, as opposed to an average of 50 minutes per specimen using structured light scanning.
翻訳日:2022-05-06 14:54:58 公開日:2022-05-05
# BasicTAD: 時間的行動検出のためのRGB専用ベースライン

BasicTAD: an Astounding RGB-Only Baseline for Temporal Action Detection ( http://arxiv.org/abs/2205.02717v1 )

ライセンス: Link先を確認
Min Yang, Guo Chen, Yin-Dong Zheng, Tong Lu, Limin Wang(参考訳) 時間的行動検出(tad)は,映像中の物体検出パイプラインを追従することにより,映像理解コミュニティで広く研究されている。 しかし、2つのストリームの特徴抽出、多段階トレーニング、複雑な時間的モデリング、グローバルコンテキスト融合など、複雑な設計はtadでは珍しくない。 本稿では,TADの新しい技術を導入することを目的としていない。 その代わりに、複雑な設計の現在の状況とTADの低効率を考えると、単純で単純だが必須のベースラインについて研究する。 単純なベースライン(BasicTAD)では,データサンプリング,バックボーン設計,ネック構造,検出ヘッドといった,TADパイプラインをいくつかの重要なコンポーネントに分解しています。 このベースラインに対する各コンポーネントの既存のテクニックを実証的に調査し、さらに重要なのは、設計の単純さのおかげで、パイプライン全体のエンドツーエンドのトレーニングを実行します。 我々のベーシックTADは、2ストリーム入力を持つ最先端の手法に非常に近い驚くべきRGB-Onlyベースラインを得る。 さらに,ネットワーク表現における時間的および空間的情報(basictad plus)の保存により,基本タッドをさらに改善する。 実験の結果、我々のbasictad plusは非常に効率的で、thums14のデータセットとファインアクションの以前の方法を大幅に上回っています。 我々のアプローチはTADの強力なベースラインとして機能する。 コードはhttps://github.com/m cg-nju/basictadでリリースされる。

Temporal action detection (TAD) is extensively studied in the video understanding community by following the object detection pipelines in images. However, complex designs are not uncommon in TAD, such as two-stream feature extraction, multi-stage training, complex temporal modeling, and global context fusion. In this paper, we do not aim to introduce any novel technique for TAD. Instead, we study a simple, straightforward, yet must-known baseline given the current status of complex design and low efficiency in TAD. In our simple baseline (BasicTAD), we decompose the TAD pipeline into several essential components: data sampling, backbone design, neck construction, and detection head. We empirically investigate the existing techniques in each component for this baseline and, more importantly, perform end-to-end training over the entire pipeline thanks to the simplicity in design. Our BasicTAD yields an astounding RGB-Only baseline very close to the state-of-the-art methods with two-stream inputs. In addition, we further improve the BasicTAD by preserving more temporal and spatial information in network representation (termed as BasicTAD Plus). Empirical results demonstrate that our BasicTAD Plus is very efficient and significantly outperforms the previous methods on the datasets of THUMOS14 and FineAction. Our approach can serve as a strong baseline for TAD. The code will be released at https://github.com/M CG-NJU/BasicTAD.
翻訳日:2022-05-06 14:54:37 公開日:2022-05-05
# ウェアラブルセンサーによる視覚的可視性人間と物体のインタラクションキャプチャ

Visually plausible human-object interaction capture from wearable sensors ( http://arxiv.org/abs/2205.02830v1 )

ライセンス: Link先を確認
Vladimir Guzov, Torsten Sattler, Gerard Pons-Moll(参考訳) 日常生活では、人間が椅子を動かして座るなど、相互作用を通じて周囲の環境を自然に変える。 このような相互作用を仮想空間(メタバースなど)で再現するには、理想的にはエゴ中心の入力(ヘッドカメラとボディウーンの慣性センサー)からシーン形状の変化を含む、それらをキャプチャしてモデル化する必要がある。 これは非常に難しい問題であり、特に、被写体/シーンがヘッドカメラから見えない(例えば、人が座っている間椅子を見ていない、ドアを開けている間ドアハンドルを見ていないなど)ためである。 本稿では,エゴ中心のデータのみからオブジェクトのドラッグやドアの開放などのインタラクションをキャプチャする最初の方法であるHOPSを提案する。 我々の手法の中心は、人間と物体の相互作用の推論であり、ヘッドカメラから見えなくても物体を追跡できる。 HOPSは、スキャン済みの静的シーンにおいて、人間と動的オブジェクトの両方をローカライズし、登録する。 HOPSは没入型仮想宇宙に基づく高度なAR/VRアプリケーションに向けた重要な第一歩であり、マシンに周囲との対話を教えるための人間中心のトレーニングデータを提供することができる。 補足的なビデオ、データ、コードは、プロジェクトページhttp://virtualhumans .mpi-inf.mpg.de/hops /で閲覧できます。

In everyday lives, humans naturally modify the surrounding environment through interactions, e.g., moving a chair to sit on it. To reproduce such interactions in virtual spaces (e.g., metaverse), we need to be able to capture and model them, including changes in the scene geometry, ideally from ego-centric input alone (head camera and body-worn inertial sensors). This is an extremely hard problem, especially since the object/scene might not be visible from the head camera (e.g., a human not looking at a chair while sitting down, or not looking at the door handle while opening a door). In this paper, we present HOPS, the first method to capture interactions such as dragging objects and opening doors from ego-centric data alone. Central to our method is reasoning about human-object interactions, allowing to track objects even when they are not visible from the head camera. HOPS localizes and registers both the human and the dynamic object in a pre-scanned static scene. HOPS is an important first step towards advanced AR/VR applications based on immersive virtual universes, and can provide human-centric training data to teach machines to interact with their surroundings. The supplementary video, data, and code will be available on our project page at http://virtualhumans .mpi-inf.mpg.de/hops /
翻訳日:2022-05-06 14:52:48 公開日:2022-05-05
# マンハッタン世界推定によるニューラル3次元シーン再構成

Neural 3D Scene Reconstruction with the Manhattan-world Assumption ( http://arxiv.org/abs/2205.02836v1 )

ライセンス: Link先を確認
Haoyu Guo, Sida Peng, Haotong Lin, Qianqian Wang, Guofeng Zhang, Hujun Bao, Xiaowei Zhou(参考訳) 本稿では,多視点画像から3次元室内シーンを再構成する課題について述べる。 以前の多くの作品は、テクスチャ化されたオブジェクトの印象的な再構成結果を示しているが、室内シーンで一般的である低テクスチャの平面領域を扱うのにはまだ困難である。 この問題を解決するアプローチは、マルチビューステレオベース手法の深度マップ推定にプランナー制約を組み込むことであるが、ビュー単位の平面推定と深さ最適化には効率とマルチビューの一貫性が欠如している。 本研究では,近年の暗黙的表現に基づく再構成法において,平面制約を便利に統合できることを示す。 具体的には,符号付き距離関数をシーン幾何学として表現するために,MLPネットワークを用いる。 マンハッタン世界の仮定に基づき、2次元セマンティックセグメンテーションネットワークによって予測される床および壁面領域の幾何を規則化するために平面的制約を用いる。 不正確なセグメンテーションを解決するために、3Dポイントのセマンティクスを他のMLPとエンコードし、3D空間におけるシーン幾何学とセマンティクスを協調的に最適化する新しい損失を設計する。 scannet と 7-scenes データセットを用いた実験により,提案手法が従来の手法よりも高い3次元再現性を示した。 コードはhttps://zju3dv.githu b.io/manhattan_sdfで入手できる。

This paper addresses the challenge of reconstructing 3D indoor scenes from multi-view images. Many previous works have shown impressive reconstruction results on textured objects, but they still have difficulty in handling low-textured planar regions, which are common in indoor scenes. An approach to solving this issue is to incorporate planer constraints into the depth map estimation in multi-view stereo-based methods, but the per-view plane estimation and depth optimization lack both efficiency and multi-view consistency. In this work, we show that the planar constraints can be conveniently integrated into the recent implicit neural representation-based reconstruction methods. Specifically, we use an MLP network to represent the signed distance function as the scene geometry. Based on the Manhattan-world assumption, planar constraints are employed to regularize the geometry in floor and wall regions predicted by a 2D semantic segmentation network. To resolve the inaccurate segmentation, we encode the semantics of 3D points with another MLP and design a novel loss that jointly optimizes the scene geometry and semantics in 3D space. Experiments on ScanNet and 7-Scenes datasets show that the proposed method outperforms previous methods by a large margin on 3D reconstruction quality. The code is available at https://zju3dv.githu b.io/manhattan_sdf.
翻訳日:2022-05-06 14:52:26 公開日:2022-05-05
# 音声翻訳のためのクロスモーダルコントラスト学習

Cross-modal Contrastive Learning for Speech Translation ( http://arxiv.org/abs/2205.02444v1 )

ライセンス: Link先を確認
Rong Ye, Mingxuan Wang, Lei Li(参考訳) 音声発話と文章の統一表現をどのように学べるか? 意味的に類似した音声とテキストのための類似表現の学習は、音声翻訳にとって重要である。 そこで本研究では,エンドツーエンドの音声からテキストへの翻訳のためのコントラスト学習手法であるConSTを提案する。 我々は、人気のベンチマーク MuST-C で、ConST と様々な以前のベースラインを評価した。 実験によれば、constは従来の手法を一貫して上回っており、平均ブレウは29.4である。 この分析により、ConSTが様々なモダリティの表現ギャップを実際に閉じていることが確かめられる。その学習された表現は、モーダル音声テキスト検索の精度を4%から88%に向上させる。 コードとモデルはhttps://github.com/R eneeYe/ConST.comで公開されている。

How can we learn unified representations for spoken utterances and their written text? Learning similar representations for semantically similar speech and text is important for speech translation. To this end, we propose ConST, a cross-modal contrastive learning method for end-to-end speech-to-text translation. We evaluate ConST and a variety of previous baselines on a popular benchmark MuST-C. Experiments show that the proposed ConST consistently outperforms the previous methods on, and achieves an average BLEU of 29.4. The analysis further verifies that ConST indeed closes the representation gap of different modalities -- its learned representation improves the accuracy of cross-modal speech-text retrieval from 4% to 88%. Code and models are available at https://github.com/R eneeYe/ConST.
翻訳日:2022-05-06 14:51:46 公開日:2022-05-05
# 医療用ノートソフトのユーザ主導研究

User-Driven Research of Medical Note Generation Software ( http://arxiv.org/abs/2205.02549v1 )

ライセンス: Link先を確認
Tom Knoll, Francesco Moramarco, Alex Papadopoulos Korfiatis, Rachel Young, Claudia Ruffini, Mark Perera, Christian Perstl, Ehud Reiter, Anya Belz, Aleksandar Savkov(参考訳) 増大する作業は、自然言語処理(nlp)メソッドを使用して、医師・患者の診察の音声記録から医療ノートを自動的に生成する。 しかし、そのようなシステムを臨床でどのように使うか、臨床医がどのように使うか、システム設計がどのように影響されるべきか、といった研究はほとんどない。 本稿では,医療用ノート生成システムの開発において実施した3ラウンドのユーザスタディについて述べる。 本報告では, 臨床医の印象と, システムに価値あるものに適合させるべきかを考察し, 分析し, 考察する。 次に,実地遠隔医療における3週間のシステムテストを行い,その中から得られた知見について述べる。 (i)五つの異なる注記行動の出現 (ii)相談中にリアルタイムにノートを生成するシステムの重要性 (iii)自動音符生成システムにとって困難である可能性がある多くの臨床用症例の同定。

A growing body of work uses Natural Language Processing (NLP) methods to automatically generate medical notes from audio recordings of doctor-patient consultations. However, there are very few studies on how such systems could be used in clinical practice, how clinicians would adjust to using them, or how system design should be influenced by such considerations. In this paper, we present three rounds of user studies, carried out in the context of developing a medical note generation system. We present, analyse and discuss the participating clinicians' impressions and views of how the system ought to be adapted to be of value to them. Next, we describe a three-week test run of the system in a live telehealth clinical practice, major findings from which include (i) the emergence of five different note-taking behaviours; (ii) the importance of the system generating notes in real time during the consultation; and (iii) the identification of a number of clinical use cases that could prove challenging for automatic note generation systems.
翻訳日:2022-05-06 14:51:36 公開日:2022-05-05
# RaFoLa:強制労働の指標を検知するRationale-Annotated Corpus

RaFoLa: A Rationale-Annotated Corpus for Detecting Indicators of Forced Labour ( http://arxiv.org/abs/2205.02684v1 )

ライセンス: Link先を確認
Erick Mendez Guzman, Viktor Schlegel and Riza Batista-Navarro(参考訳) 強制労働は現代の奴隷制の最も一般的なタイプであり、研究や社会社会の注目を集めている。 最近の研究は、人工知能(AI)が反奴隷制度運動を増強する大きな可能性を秘めていることを示唆している。 しかし、AIツールは異なる利害関係者と協力して透過的に開発する必要がある。 このようなツールは、強制労働のほとんど見えない性質のため、ドメイン固有のデータへの可用性とアクセスに必須です。 本稿では,マルチクラスおよびマルチラベル強制労働検出のためのアノテーション付き英語コーパスについて述べる。 コーパスは、国際労働機関(ILO)が定めるリスク指標に従って、専門データソースから検索した989のニュース記事で構成されている。 各ニュース記事は,(1)分類ラベルとしての強制労働の指標,(2)ラベル決定を正当化するテキストの断片の2つの側面について注釈を付した。 当社のデータセットは,マルチクラスおよびマルチラベルテキスト分類における説明可能性の研究を促進できることを願っている。 本稿では,提案するコーパスの基盤となるデータ収集のプロセスを説明し,ガイドラインを解説し,その内容に関する統計的分析を行う。 最後に,変換器(BERT)モデルからの双方向エンコーダ表現の異なる変種に基づいて,ベースライン実験の結果を要約する。

Forced labour is the most common type of modern slavery, and it is increasingly gaining the attention of the research and social community. Recent studies suggest that artificial intelligence (AI) holds immense potential for augmenting anti-slavery action. However, AI tools need to be developed transparently in cooperation with different stakeholders. Such tools are contingent on the availability and access to domain-specific data, which are scarce due to the near-invisible nature of forced labour. To the best of our knowledge, this paper presents the first openly accessible English corpus annotated for multi-class and multi-label forced labour detection. The corpus consists of 989 news articles retrieved from specialised data sources and annotated according to risk indicators defined by the International Labour Organization (ILO). Each news article was annotated for two aspects: (1) indicators of forced labour as classification labels and (2) snippets of the text that justify labelling decisions. We hope that our data set can help promote research on explainability for multi-class and multi-label text classification. In this work, we explain our process for collecting the data underpinning the proposed corpus, describe our annotation guidelines and present some statistical analysis of its content. Finally, we summarise the results of baseline experiments based on different variants of the Bidirectional Encoder Representation from Transformer (BERT) model.
翻訳日:2022-05-06 14:51:21 公開日:2022-05-05
# (参考訳) 微分物理学を用いたソフトボディマニピュレーションのための接触点発見 [全文訳有]

Contact Points Discovery for Soft-Body Manipulations with Differentiable Physics ( http://arxiv.org/abs/2205.02835v1 )

ライセンス: CC0 1.0
Sizhe Li, Zhiao Huang, Tao Du, Hao Su, Joshua B. Tenenbaum, Chuang Gan(参考訳) 微分物理学は、ソフトボディ操作タスクを解く強力なツールとして最近示されている。 しかし、微分可能な物理ソルバは、エンドエフェクタの初期コンタクトポイントが最適でない場合や、コンタクトポイントスイッチを必要とする多段階タスクを行う場合、局所的なミニマムに繋がる場合、しばしば立ち往生する。 この課題に対処するために,単相微分可能な物理解法を導いて様々な軟質プラスチックを変形させるコンタクトポイント発見法(cpdeform)を提案する。 提案手法の鍵となる考え方は,初期接触点や接触切換から局所最小点を克服するために,最適輸送に基づく接触点発見を微分可能な物理解法に統合することである。 シングルステージタスクでは,移動優先度に基づいて適切な初期接触点を自動的に見つけることができる。 複雑なマルチステージタスクでは、トランスポート優先に基づいて、エンドエフェクタの接触点を反復的に切り替えることができる。 本手法の有効性を評価するために,既存の微分可能な物理ベンチマークである plasticinelab を7つの新しい多段階ソフトボディ操作タスクに拡張した plasticinelab-m を提案する。 実験結果は以下の通りである。 1) バニラ微分可能な物理解法では実現不可能な多段階タスクにおいて,我々は,解法を完了に導くための接触点を探索する。 2) バニラソルバが準最適又はほぼ最適に実行するタスクにおいて,接触点検出法は手作り接触点を用いた操作性能と同等以上の性能を示す。

Differentiable physics has recently been shown as a powerful tool for solving soft-body manipulation tasks. However, the differentiable physics solver often gets stuck when the initial contact points of the end effectors are sub-optimal or when performing multi-stage tasks that require contact point switching, which often leads to local minima. To address this challenge, we propose a contact point discovery approach (CPDeform) that guides the stand-alone differentiable physics solver to deform various soft-body plasticines. The key idea of our approach is to integrate optimal transport-based contact points discovery into the differentiable physics solver to overcome the local minima from initial contact points or contact switching. On single-stage tasks, our method can automatically find suitable initial contact points based on transport priorities. On complex multi-stage tasks, we can iteratively switch the contact points of end-effectors based on transport priorities. To evaluate the effectiveness of our method, we introduce PlasticineLab-M that extends the existing differentiable physics benchmark PlasticineLab to seven new challenging multi-stage soft-body manipulation tasks. Extensive experimental results suggest that: 1) on multi-stage tasks that are infeasible for the vanilla differentiable physics solver, our approach discovers contact points that efficiently guide the solver to completion; 2) on tasks where the vanilla solver performs sub-optimally or near-optimally, our contact point discovery method performs better than or on par with the manipulation performance obtained with handcrafted contact points.
翻訳日:2022-05-06 14:50:17 公開日:2022-05-05
# 深層強化学習における時間パターンバックドア攻撃

A Temporal-Pattern Backdoor Attack to Deep Reinforcement Learning ( http://arxiv.org/abs/2205.02589v1 )

ライセンス: Link先を確認
Yinbo Yu, Jiajia Liu, Shouqing Li, Kepu Huang, Xudong Feng(参考訳) 深層強化学習(DRL)は多くの実世界の応用において大きな成果を上げている。 しかし、こうした現実世界のアプリケーションは、通常、閉塞や騒がしいセンサーによって決定される部分的な観察しか提供できない。 しかし、部分状態の可観測性はバックドアの悪意のある振る舞いを隠すために使用できる。 本稿では、DRLのシーケンシャルな性質を探求し、DRLに対する新たな時間的パターンのバックドア攻撃を提案する。 提案するバックドア攻撃をクラウドコンピューティングの典型的なジョブスケジューリングタスクに検証する。 多くの実験結果から, バックドアは優れた有効性, ステルス性, 持続性が得られることが示された。 我々のバックドアの平均的クリーンデータ精度と攻撃成功率は、それぞれ97.8%と97.5%に達する。

Deep reinforcement learning (DRL) has made significant achievements in many real-world applications. But these real-world applications typically can only provide partial observations for making decisions due to occlusions and noisy sensors. However, partial state observability can be used to hide malicious behaviors for backdoors. In this paper, we explore the sequential nature of DRL and propose a novel temporal-pattern backdoor attack to DRL, whose trigger is a set of temporal constraints on a sequence of observations rather than a single observation, and effect can be kept in a controllable duration rather than in the instant. We validate our proposed backdoor attack to a typical job scheduling task in cloud computing. Numerous experimental results show that our backdoor can achieve excellent effectiveness, stealthiness, and sustainability. Our backdoor's average clean data accuracy and attack success rate can reach 97.8% and 97.5%, respectively.
翻訳日:2022-05-06 14:29:16 公開日:2022-05-05
# 対比多視点双曲階層クラスタリング

Contrastive Multi-view Hyperbolic Hierarchical Clustering ( http://arxiv.org/abs/2205.02618v1 )

ライセンス: Link先を確認
Fangfei Lin, Bing Bai, Kun Bai, Yazhou Ren, Peng Zhao and Zenglin Xu(参考訳) 階層的クラスタリングは、データをより細かい粒度で再帰的に分割する。 現実世界のアプリケーションでは、マルチビューデータの重要性が高まっている。 これは、マルチビューデータの階層構造をよりよく理解するために、あまり研究されていない問題、すなわちマルチビュー階層クラスタリングを引き起こす。 そこで本研究では,新しいニューラルネットワークモデルであるContrastive Multi-view Hyperbolic Hierarchical Clustering (CMHHC)を提案する。 マルチビューアライメント学習、アライメントされた特徴類似学習、連続的な双曲的階層的クラスタリングという3つのコンポーネントで構成されている。 まず、複数のビューにまたがるサンプルレベルの表現をコントラスト的に調整し、ビュー不変情報をキャプチャする。 次に、多様体とユークリッドの類似性を利用して計量特性を改善する。 次に,この表現を双曲空間に埋め込み,階層的クラスタリング損失の連続緩和を通じて双曲的埋め込みを最適化する。 最後に、最適化された双曲的埋め込みからバイナリクラスタリングツリーをデコードする。 5つの実世界のデータセットにおける実験結果は,提案手法とそのコンポーネントの有効性を示している。

Hierarchical clustering recursively partitions data at an increasingly finer granularity. In real-world applications, multi-view data have become increasingly important. This raises a less investigated problem, i.e., multi-view hierarchical clustering, to better understand the hierarchical structure of multi-view data. To this end, we propose a novel neural network-based model, namely Contrastive Multi-view Hyperbolic Hierarchical Clustering (CMHHC). It consists of three components, i.e., multi-view alignment learning, aligned feature similarity learning, and continuous hyperbolic hierarchical clustering. First, we align sample-level representations across multiple views in a contrastive way to capture the view-invariance information. Next, we utilize both the manifold and Euclidean similarities to improve the metric property. Then, we embed the representations into a hyperbolic space and optimize the hyperbolic embeddings via a continuous relaxation of hierarchical clustering loss. Finally, a binary clustering tree is decoded from optimized hyperbolic embeddings. Experimental results on five real-world datasets demonstrate the effectiveness of the proposed method and its components.
翻訳日:2022-05-06 14:29:05 公開日:2022-05-05
# スパイキンググラフ畳み込みネットワーク

Spiking Graph Convolutional Networks ( http://arxiv.org/abs/2205.02767v1 )

ライセンス: Link先を確認
Zulun Zhu, Jiaying Peng, Jintang Li, Liang Chen, Qi Yu, Siqiang Luo(参考訳) グラフ畳み込みネットワーク(GCN)は,グラフ情報を学習する際の顕著な表現能力により,優れた性能を発揮する。 しかし、GCNはディープネットワーク上に実装される場合、高価な計算能力を必要とするため、バッテリ駆動デバイスへの展開が困難である。 対照的に、バイオフィデリティ推論プロセスを実行するスパイキングニューラルネットワーク(SNN)は、エネルギー効率のよいニューラルアーキテクチャを提供する。 本稿では,GCNの組込みとSNNの生体忠実度特性を統合することを目的とした,エンドツーエンドのフレームワークであるSpkingGCNを提案する。 元のグラフデータは、グラフ畳み込みの組込みに基づいてスパイクトレインに符号化される。 さらに、ニューロンノードと組み合わされた完全連結層を利用することにより、生体情報処理をモデル化する。 様々なシナリオ(例えば、引用ネットワーク、画像グラフ分類、レコメンデータシステム)において、提案手法が最先端手法と競合する性能を得る可能性があることを示す実験結果を得た。 さらに,ニューロモルフィックチップ上のspikinggcnは,グラフデータ解析にエネルギー効率の明確な利点をもたらすことを示し,環境にやさしい機械学習モデルを構築するための大きな可能性を示す。

Graph Convolutional Networks (GCNs) achieve an impressive performance due to the remarkable representation ability in learning the graph information. However, GCNs, when implemented on a deep network, require expensive computation power, making them difficult to be deployed on battery-powered devices. In contrast, Spiking Neural Networks (SNNs), which perform a bio-fidelity inference process, offer an energy-efficient neural architecture. In this work, we propose SpikingGCN, an end-to-end framework that aims to integrate the embedding of GCNs with the biofidelity characteristics of SNNs. The original graph data are encoded into spike trains based on the incorporation of graph convolution. We further model biological information processing by utilizing a fully connected layer combined with neuron nodes. In a wide range of scenarios (e.g. citation networks, image graph classification, and recommender systems), our experimental results show that the proposed method could gain competitive performance against state-of-the-art approaches. Furthermore, we show that SpikingGCN on a neuromorphic chip can bring a clear advantage of energy efficiency into graph data analysis, which demonstrates its great potential to construct environment-friendly machine learning models.
翻訳日:2022-05-06 14:28:49 公開日:2022-05-05
# 階層学習による自動不均衡分類

Automated Imbalanced Classification via Layered Learning ( http://arxiv.org/abs/2205.02553v1 )

ライセンス: Link先を確認
Vitor Cerqueira, Luis Torgo, Paula Brance, Colin Bellinger(参考訳) 本稿では,不均衡二分分類(IBC)の課題に対処する。 トレーニングインスタンスのクラス分散のバランスに再サンプリング戦略を適用することは、これらの問題に取り組むための一般的なアプローチである。 多くの最先端の手法は、再サンプリングプロセスを実行するために決定境界に近い関心の事例を見つける。 しかし、大多数のクラスをアンダーサンプリングすると、重要な情報を失う可能性がある。 オーバーサンプリングはまた、マイノリティクラスからインスタンスに含まれる情報を伝播することで、過度に適合する可能性を高める。 本研究の主な貢献は, IBCタスクに対するICLLと呼ばれる新しい手法である。 その代わり、ICLLは2つの段階でデータをモデル化するための階層学習パラダイムに従う。 第1の層では、ICLLは決定境界に近いケースを、階層的なクラスタリング分析を用いてこの二分法を定義する多数派から明らかなケースと区別することを学ぶ。 その後のレイヤでは、決定境界に近いインスタンスとマイノリティクラスのインスタンスを使用して、元の予測タスクを解決します。 私たちの研究の第2の貢献は階層的クラスタリングモデルを用いた階層型学習戦略を構成するレイヤの自動定義です。 このプロセスは通常、ドメイン知識に従って手動で実行されるので、これは関連する発見である。 100個のベンチマークデータセットを用いて広範な実験を行った。 その結果,提案手法はICBCの最先端手法に対して比較的優れた性能を示すことがわかった。

In this paper we address imbalanced binary classification (IBC) tasks. Applying resampling strategies to balance the class distribution of training instances is a common approach to tackle these problems. Many state-of-the-art methods find instances of interest close to the decision boundary to drive the resampling process. However, under-sampling the majority class may potentially lead to important information loss. Over-sampling also may increase the chance of overfitting by propagating the information contained in instances from the minority class. The main contribution of our work is a new method called ICLL for tackling IBC tasks which is not based on resampling training observations. Instead, ICLL follows a layered learning paradigm to model the data in two stages. In the first layer, ICLL learns to distinguish cases close to the decision boundary from cases which are clearly from the majority class, where this dichotomy is defined using a hierarchical clustering analysis. In the subsequent layer, we use instances close to the decision boundary and instances from the minority class to solve the original predictive task. A second contribution of our work is the automatic definition of the layers which comprise the layered learning strategy using a hierarchical clustering model. This is a relevant discovery as this process is usually performed manually according to domain knowledge. We carried out extensive experiments using 100 benchmark data sets. The results show that the proposed method leads to a better performance relatively to several state-of-the-art methods for IBC.
翻訳日:2022-05-06 14:28:18 公開日:2022-05-05
# 分子動力学における遷移経路のサンプリング法

Generative methods for sampling transition paths in molecular dynamics ( http://arxiv.org/abs/2205.02818v1 )

ライセンス: Link先を確認
Tony Leli\`evre, Genevi\`eve Robin, Inass Sekkat, Gabriel Stoltz, Gabriel Victorino Cardoso(参考訳) 分子系はしばしば、準安定性と呼ばれる振る舞いに切り替える前に、ポテンシャルエネルギー関数の局所的な最小値付近で長い間閉じ込められている。 ある準安定状態と別の状態を結ぶ遷移経路をシミュレートすることは直接数値的手法では難しい。 本稿では,機械学習手法の期待を踏まえ,変分オートエンコーダなどの生成モデルに基づくサンプリング法と強化学習に基づく重要サンプリング法という,遷移経路をより効率的に生成するための2つの手法について検討する。

Molecular systems often remain trapped for long times around some local minimum of the potential energy function, before switching to another one -- a behavior known as metastability. Simulating transition paths linking one metastable state to another one is difficult by direct numerical methods. In view of the promises of machine learning techniques, we explore in this work two approaches to more efficiently generate transition paths: sampling methods based on generative models such as variational autoencoders, and importance sampling methods based on reinforcement learning.
翻訳日:2022-05-06 14:27:57 公開日:2022-05-05
# 視覚質問応答のための宣言型プロンプトチューニング

Declaration-based Prompt Tuning for Visual Question Answering ( http://arxiv.org/abs/2205.02456v1 )

ライセンス: Link先を確認
Yuhang Liu, Wei Wei, Daowan Peng and Feida Zhu(参考訳) 近年では、視覚的質問応答(VQA)、視覚言語(VL)モデルが自己教師型タスク目的(例えば、マスク言語モデリング(MLM)と画像テキストマッチング(ITM)によって最初に最適化され、新しい目的関数(例えば、VQA)を介して下流タスク(例えば、VQA)に適応するように微調整されるなど、多岐にわたるクロスモーダルタスクにおいて大きな成功を収めている。 目的形式の不整合は、事前訓練されたVLモデルの下流タスクへの一般化を著しく制限するだけでなく、微調整のために大量のラベル付きデータを必要とする。 そこで本研究では,VQAモデルの事前学習と微調整の目的を協調的に最適化し,事前学習したVLモデルを下流タスクに効果的に適用する,革新的なVLファインチューニングパラダイム(宣言ベースのPrompt Tuning,略称DPT)を提案する。 具体的には、(1)テキスト適応によりVQAタスクの目的形式を再構成し、(2)事前学習フェーズでVQA問題の目的機能を最適化する宣言文形式に変換する。 GQAデータセットの実験結果によると、DPTは完全な教師付き(2.68%)とゼロショット/フェーショット(31%以上)の両方で精度に大きな差で微調整されたデータセットよりも優れている。 すべてのデータとコードは、将来の研究を促進するために利用可能になる。

In recent years, the pre-training-then-fi ne-tuning paradigm has yielded immense success on a wide spectrum of cross-modal tasks, such as visual question answering (VQA), in which a visual-language (VL) model is first optimized via self-supervised task objectives, e.g., masked language modeling (MLM) and image-text matching (ITM), and then fine-tuned to adapt to downstream task (e.g., VQA) via a brand-new objective function, e.g., answer prediction. The inconsistency of the objective forms not only severely limits the generalization of pre-trained VL models to downstream tasks, but also requires a large amount of labeled data for fine-tuning. To alleviate the problem, we propose an innovative VL fine-tuning paradigm (named Declaration-based Prompt Tuning, abbreviated as DPT), which jointly optimizes the objectives of pre-training and fine-tuning of VQA model, boosting the effective adaptation of pre-trained VL models to the downstream task. Specifically, DPT reformulates the objective form of VQA task via (1) textual adaptation, which converts the given questions into declarative sentence-form for prompt-tuning, and (2) task adaptation, which optimizes the objective function of VQA problem in the manner of pre-training phase. Experimental results on GQA dataset show that DPT outperforms the fine-tuned counterpart by a large margin regarding accuracy in both fully-supervised (2.68%) and zero-shot/few-shot (over 31%) settings. All the data and codes will be available to facilitate future research.
翻訳日:2022-05-06 14:26:21 公開日:2022-05-05
# 批評による補助的レシピ編集

Assistive Recipe Editing through Critiquing ( http://arxiv.org/abs/2205.02454v1 )

ライセンス: Link先を確認
Diego Antognini, Shuyang Li, Boi Faltings, Julian McAuley(参考訳) 最近は、オンラインレシピデータの提供によって、ある種の食事制限を満たす料理レシピの自動生成への関心が高まっている。 以前の研究では、事前訓練された言語モデルや、小さなペアのレシピデータ(例えば、食事の制約を満たす類似のレシピと組み合わせたレシピ)に頼っていた。 しかし、事前学習された言語モデルは一貫性のないレシピや一貫性のないレシピを生成し、ペアのデータセットは大規模に利用できない。 これらの欠陥を,成分レベルの批判を編集する階層的な自動エンコーダである recipecrit で解決する。 モデルはレシピ内で意味関係を学ぶために、レシピ補完のためにトレーニングされます。 我々の研究の主な革新は、ユーザーが予測された材料と相互作用してレシピを編集できる教師なしのクオリティクティングモジュールである。 Recipe1Mレシピデータセットの実験により、我々のモデルは強力な言語モデルベースラインよりも効率的にレシピを編集でき、ユーザーの制約を満たすレシピを作成し、人間の判断によって測定されるように、より正確で、セレンディピティーで、一貫性があり、関連性が高い。

There has recently been growing interest in the automatic generation of cooking recipes that satisfy some form of dietary restrictions, thanks in part to the availability of online recipe data. Prior studies have used pre-trained language models, or relied on small paired recipe data (e.g., a recipe paired with a similar one that satisfies a dietary constraint). However, pre-trained language models generate inconsistent or incoherent recipes, and paired datasets are not available at scale. We address these deficiencies with RecipeCrit, a hierarchical denoising auto-encoder that edits recipes given ingredient-level critiques. The model is trained for recipe completion to learn semantic relationships within recipes. Our work's main innovation is our unsupervised critiquing module that allows users to edit recipes by interacting with the predicted ingredients; the system iteratively rewrites recipes to satisfy users' feedback. Experiments on the Recipe1M recipe dataset show that our model can more effectively edit recipes compared to strong language-modeling baselines, creating recipes that satisfy user constraints and are more correct, serendipitous, coherent, and relevant as measured by human judges.
翻訳日:2022-05-06 14:25:45 公開日:2022-05-05
# ニューラルネットワークと船舶応答スペクトルデータを用いた海状態推定のための応答成分分析

Response Component Analysis for Sea State Estimation Using Artificial Neural Networks and Vessel Response Spectral Data ( http://arxiv.org/abs/2205.02375v1 )

ライセンス: Link先を確認
Nathan K. Long, Daniel Sgarioto, Matthew Garratt, Karl Sammut(参考訳) 船体を波浪類推(SAWB)として用いることで、波動特性と船体運動応答情報との間に関係が確立された海相を推定する新しい手段が提供される。 本研究では,SAWBに基づく海洋状態推定(SSE)に対するモデルフリー機械学習アプローチに着目し,ニューラルネットワーク(NN)を用いて船体応答スペクトルデータを統計的波動特性にマッピングする。 その結果,ヒーブ応答と有意な波高推定値との間に強い相関が認められたが,多自由度データ(dofs)を用いた場合,平均波周期と波向予測の精度は有意に向上した。 SSE の 3DOF (heave, pitch, roll) NN は,SSE と類似のシミュレーション装置を用いた既存の SSE の手法と比較して,良好な性能を示した。 スペクトル形式での血管運動応答の統計表現とnnsが変数間の複雑な関係を効果的にモデル化する能力を考えると、設計したsse法はsawbアプローチを用いたモバイルsseシステムへの将来の適応を期待する。

The use of the `ship as a wave buoy analogy' (SAWB) provides a novel means to estimate sea states, where relationships are established between causal wave properties and vessel motion response information. This study focuses on a model-free machine learning approach to SAWB-based sea state estimation (SSE), using neural networks (NNs) to map vessel response spectral data to statistical wave properties. Results showed a strong correlation between heave responses and significant wave height estimates, whilst the accuracy of mean wave period and wave heading predictions were observed to improve considerably when data from multiple vessel degrees of freedom (DOFs) was utilized. Overall, 3-DOF (heave, pitch and roll) NNs for SSE were shown to perform well when compared to existing SSE approaches that use similar simulation setups. Given the information-dense statistical representation of vessel motion responses in spectral form, as well as the ability of NNs to effectively model complex relationships between variables, the designed SSE method shows promise for future adaptation to mobile SSE systems using the SAWB approach.
翻訳日:2022-05-06 14:24:58 公開日:2022-05-05
# 量子極値学習

Quantum Extremal Learning ( http://arxiv.org/abs/2205.02807v1 )

ライセンス: Link先を確認
Savvas Varsamopoulos, Evan Philip, Herman W. T. van Vlijmen, Sairam Menon, Ann Vos, Natalia Dyubankova, Bert Torfs, Anthony Rowe, Vincent E. Elfving(参考訳) 本研究では,部分的入力出力(学習)データのみを与えられた隠れ関数に直接アクセスすることなく,関数出力を過大化させる隠れ関数への入力を求める過程である「極値学習」のための量子アルゴリズムを提案する。 QEL(quantum extremal Learning)と呼ばれるこのアルゴリズムは、データ入力-出力関係をモデル化するために変分訓練されたパラメトリック量子回路と、入力データをエンコードするトレーニング可能な量子特徴写像を解析的に区別して、モデルを過大化させる座標を求める。 これにより、単一の回路/量子コンピュータ上で、確立された量子機械学習モデリングと確立された量子最適化を組み合わせることができる。 本アルゴリズムは離散型か連続型のいずれかの入力変数に基づいて,アルゴリズムと互換性のある古典的データセットを用いて実験を行った。 離散変数の場合、Max-Cut問題生成器に基づく合成問題と、入力-出力関係における高次相関を考慮したアルゴリズムをテストする。 連続変数の場合、1次元および単純な常微分関数の合成データセット上でアルゴリズムをテストする。 トレーニングデータセットがスパースあるいは入力構成空間のごく一部であっても,アルゴリズムがそのような問題の極端値を見つけることができることがわかった。 さらに,高次元,複素微分方程式,モデリングと最適化の両方の選択において,このアルゴリズムがより一般的な場合にどのように用いられるかを示す。 汎用的な枠組みと単純な構成により、qelアルゴリズムは様々な分野の様々なアプリケーションを解くことができ、さらなる研究の領域を開くことができると想定している。

We propose a quantum algorithm for `extremal learning', which is the process of finding the input to a hidden function that extremizes the function output, without having direct access to the hidden function, given only partial input-output (training) data. The algorithm, called quantum extremal learning (QEL), consists of a parametric quantum circuit that is variationally trained to model data input-output relationships and where a trainable quantum feature map, that encodes the input data, is analytically differentiated in order to find the coordinate that extremizes the model. This enables the combination of established quantum machine learning modelling with established quantum optimization, on a single circuit/quantum computer. We have tested our algorithm on a range of classical datasets based on either discrete or continuous input variables, both of which are compatible with the algorithm. In case of discrete variables, we test our algorithm on synthetic problems formulated based on Max-Cut problem generators and also considering higher order correlations in the input-output relationships. In case of the continuous variables, we test our algorithm on synthetic datasets in 1D and simple ordinary differential functions. We find that the algorithm is able to successfully find the extremal value of such problems, even when the training dataset is sparse or a small fraction of the input configuration space. We additionally show how the algorithm can be used for much more general cases of higher dimensionality, complex differential equations, and with full flexibility in the choice of both modeling and optimization ansatz. We envision that due to its general framework and simple construction, the QEL algorithm will be able to solve a wide variety of applications in different fields, opening up areas of further research.
翻訳日:2022-05-06 14:22:37 公開日:2022-05-05
# 適応体積形状表現学習のための2つのオクターグラフネットワーク

Dual Octree Graph Networks for Learning Adaptive Volumetric Shape Representations ( http://arxiv.org/abs/2205.02825v1 )

ライセンス: Link先を確認
Peng-Shuai Wang, Yang Liu, Xin Tong(参考訳) 本稿では,3次元形状の体積場の適応的深部表現と,この深部表現を学習するための効率的な手法を提案する。 本手法では,octree によって整理された適応的特徴量を用いて3次元形状の体積場を符号化し,各3次元位置のフィールド値に特徴をマッピングするコンパクト多層パーセプトロンネットワークを適用する。 エンコーダ-デコーダネットワークは、octreeノードの双対グラフ上のグラフ畳み込みに基づいて適応的特徴量を学ぶように設計されている。 ネットワークのコアとなるのは,隣接する不規則なオクツリーノードから異なるレベルで融合した機能グリッド上に定義された新しいグラフ畳み込み演算子であり,不規則なオクツリーノード上の畳み込みの計算とメモリコストを削減するだけでなく,特徴学習の性能も向上する。 本手法は,形状の詳細を効果的にエンコードし,高速3次元形状再構成を可能にし,トレーニングカテゴリから3次元形状をモデル化するための汎用性を示す。 本手法は,3次元形状とシーンの再構成作業で評価し,他の既存手法よりもその優越性を検証する。 私たちのコード、データ、およびトレーニングされたモデルは、https://wang-ps.gith ub.io/dualocnnで利用可能です。

We present an adaptive deep representation of volumetric fields of 3D shapes and an efficient approach to learn this deep representation for high-quality 3D shape reconstruction and auto-encoding. Our method encodes the volumetric field of a 3D shape with an adaptive feature volume organized by an octree and applies a compact multilayer perceptron network for mapping the features to the field value at each 3D position. An encoder-decoder network is designed to learn the adaptive feature volume based on the graph convolutions over the dual graph of octree nodes. The core of our network is a new graph convolution operator defined over a regular grid of features fused from irregular neighboring octree nodes at different levels, which not only reduces the computational and memory cost of the convolutions over irregular neighboring octree nodes, but also improves the performance of feature learning. Our method effectively encodes shape details, enables fast 3D shape reconstruction, and exhibits good generality for modeling 3D shapes out of training categories. We evaluate our method on a set of reconstruction tasks of 3D shapes and scenes and validate its superiority over other existing approaches. Our code, data, and trained models are available at https://wang-ps.gith ub.io/dualocnn.
翻訳日:2022-05-06 14:22:08 公開日:2022-05-05
# ビジュアルリッチ文書における関係表現学習

Relational Representation Learning in Visually-Rich Documents ( http://arxiv.org/abs/2205.02411v1 )

ライセンス: Link先を確認
Xin Li, Yan Zheng, Yiqing Hu, Haoyu Cao, Yunfei Wu, Deqiang Jiang, Yinsong Liu, Bo Ren(参考訳) 関係理解は、多くの視覚的にリッチなドキュメント(VRD)理解タスクにおいて重要である。 マルチモーダル事前トレーニングを通じて、最近の研究は包括的な文脈表現を提供し、下流タスクの事前知識として活用している。 その印象的な結果にもかかわらず,文脈知識に基づいて構築された広範囲にわたる関係的ヒント(例えば,レシート上のキー/値フィールドの関係)がいまだに発掘されていないことを観察した。 このギャップを軽減するために,ドキュメント関係表現学習フレームワークのdocrelを提案する。 DocReLの最大の課題は、様々な関係にある。 複雑な大域構造に対する最も単純な対関係から、関係の定義によって教師あり訓練を行うことは不可能であり、異なるタスクにおける矛盾さえも異なる。 関係の予測不能な定義に対処するために,既存の関係が異なる拡張正の視点で一貫性を持つべきという事実を生かした,関係一貫性モデリング(Relational Consistency Modeling, RCM)という新しい対照的な学習課題を提案する。 RCMは、正確な関係の定義に関する知識がなくても、下流タスクの緊急要求とより互換性のある関係表現を提供する。 DocReLは、テーブル構造認識、キー情報抽出、読み出し順序検出など、様々なVRDリレーショナル理解タスクにおいて、より良いパフォーマンスを実現する。

Relational understanding is critical for a number of visually-rich documents (VRDs) understanding tasks. Through multi-modal pre-training, recent studies provide comprehensive contextual representations and exploit them as prior knowledge for downstream tasks. In spite of their impressive results, we observe that the widespread relational hints (e.g., relation of key/value fields on receipts) built upon contextual knowledge are not excavated yet. To mitigate this gap, we propose DocReL, a Document Relational Representation Learning framework. The major challenge of DocReL roots in the variety of relations. From the simplest pairwise relation to the complex global structure, it is infeasible to conduct supervised training due to the definition of relation varies and even conflicts in different tasks. To deal with the unpredictable definition of relations, we propose a novel contrastive learning task named Relational Consistency Modeling (RCM), which harnesses the fact that existing relations should be consistent in differently augmented positive views. RCM provides relational representations which are more compatible to the urgent need of downstream tasks, even without any knowledge about the exact definition of relation. DocReL achieves better performance on a wide variety of VRD relational understanding tasks, including table structure recognition, key information extraction and reading order detection.
翻訳日:2022-05-06 14:20:22 公開日:2022-05-05
# (参考訳) 物理シミュレーションと関数予測による多機能物体の固定 [全文訳有]

Fixing Malfunctional Objects With Learned Physical Simulation and Functional Prediction ( http://arxiv.org/abs/2205.02834v1 )

ライセンス: CC0 1.0
Yining Hong, Kaichun Mo, Li Yi, Leonidas J. Guibas, Antonio Torralba, Joshua B. Tenenbaum, Chuang Gan(参考訳) 本稿では, 不正な3Dオブジェクトの修正問題について検討する。 従来の研究は静的な3Dオブジェクトから機能を学習するための受動的知覚モデルの構築に重点を置いていたが,機能とはオブジェクトとユーザ間の物理的相互作用に関するものである,と我々は主張する。 機能不全の物体が与えられたら、人間は精神シミュレーションを行い、その機能について推論し、その修正方法を見つけることができる。 約5kの粗悪な設計の3d物理オブジェクトと、それらを修正する選択とを組み合わせたデータセットであるfixitを提案する。 人間の心的シミュレーションプロセスの模倣として,知覚と物理力学をシームレスに組み込んだ新しいフレームワークであるFixNetを提案する。 具体的には、3dポイントクラウドから構造化表現を抽出する知覚モジュールと、3dオブジェクト上のインタラクションの結果をシミュレートする物理力学予測モジュールと、機能を評価し、正しい修正を選択する機能予測モジュールで構成されている。 実験の結果,本フレームワークはベースラインモデルよりも大きなマージンで優れており,類似の相互作用型を持つオブジェクトによく対応できることがわかった。

This paper studies the problem of fixing malfunctional 3D objects. While previous works focus on building passive perception models to learn the functionality from static 3D objects, we argue that functionality is reckoned with respect to the physical interactions between the object and the user. Given a malfunctional object, humans can perform mental simulations to reason about its functionality and figure out how to fix it. Inspired by this, we propose FixIt, a dataset that contains about 5k poorly-designed 3D physical objects paired with choices to fix them. To mimic humans' mental simulation process, we present FixNet, a novel framework that seamlessly incorporates perception and physical dynamics. Specifically, FixNet consists of a perception module to extract the structured representation from the 3D point cloud, a physical dynamics prediction module to simulate the results of interactions on 3D objects, and a functionality prediction module to evaluate the functionality and choose the correct fix. Experimental results show that our framework outperforms baseline models by a large margin, and can generalize well to objects with similar interaction types.
翻訳日:2022-05-06 14:18:25 公開日:2022-05-05
# 信頼に足るシステム構築におけるサンプルレベルの敵対的脆弱性の測定とその実用性

Holistic Approach to Measure Sample-level Adversarial Vulnerability and its Utility in Building Trustworthy Systems ( http://arxiv.org/abs/2205.02604v1 )

ライセンス: Link先を確認
Gaurav Kumar Nayak, Ruchit Rawal, Rohit Lal, Himanshu Patil, Anirban Chakraborty(参考訳) 敵対的攻撃は知覚不能な雑音で画像を乱し、誤ったモデル予測につながる。 近年では、データセット内の特定のサブグループ(例えば、クラスや性別などに基づく)が他よりも堅牢でないような攻撃(ロバストバイアス)に関連する固有のバイアスがいくつか示されている。 このバイアスは、逆行訓練後も持続するだけでなく、しばしばこれらのサブグループ間で深刻なパフォーマンスの相違をもたらす。 既存の作業は、個々のサンプルが決定境界に近接していることをチェックするだけで、サブグループの堅牢性バイアスを特徴づける。 本研究では,この尺度だけでは不十分であり,広範な実験分析を通じて議論を検証する。 敵の攻撃は入力画像の高周波成分を損なうことがしばしば観察されている。 そこで我々は,これらの異なる視点,すなわち,高周波特性へのモデルの依存度と,決定境界への(従来的)サンプル距離を組み合わせることにより,サンプルの逆脆弱性を定量化する包括的アプローチを提案する。 提案手法を用いて, サンプルレベルでの敵対的脆弱性を確実に推定することにより, 人間が検査時に誤分類される可能性が極めて高い入ってくるサンプルに対して, 信頼できるシステムを構築することが可能であることを実証した。 これは、我々の総合測度が個々の測度を超えるとより正確な精度で達成される。 提案する全体論的アプローチの有用性をさらに裏付けるために,限定サンプル設定で知識蒸留を行う。 組み合わせた測定値を用いて選択したサンプルのサブセットを用いてトレーニングした学生ネットワークは、ランダムに、あるいは決定境界までの距離に基づいて、競合するベースライン(viz.)の両方よりも優れた性能を示す。

Adversarial attack perturbs an image with an imperceptible noise, leading to incorrect model prediction. Recently, a few works showed inherent bias associated with such attack (robustness bias), where certain subgroups in a dataset (e.g. based on class, gender, etc.) are less robust than others. This bias not only persists even after adversarial training, but often results in severe performance discrepancies across these subgroups. Existing works characterize the subgroup's robustness bias by only checking individual sample's proximity to the decision boundary. In this work, we argue that this measure alone is not sufficient and validate our argument via extensive experimental analysis. It has been observed that adversarial attacks often corrupt the high-frequency components of the input image. We, therefore, propose a holistic approach for quantifying adversarial vulnerability of a sample by combining these different perspectives, i.e., degree of model's reliance on high-frequency features and the (conventional) sample-distance to the decision boundary. We demonstrate that by reliably estimating adversarial vulnerability at the sample level using the proposed holistic metric, it is possible to develop a trustworthy system where humans can be alerted about the incoming samples that are highly likely to be misclassified at test time. This is achieved with better precision when our holistic metric is used over individual measures. To further corroborate the utility of the proposed holistic approach, we perform knowledge distillation in a limited-sample setting. We observe that the student network trained with the subset of samples selected using our combined metric performs better than both the competing baselines, viz., where samples are selected randomly or based on their distances to the decision boundary.
翻訳日:2022-05-06 13:59:40 公開日:2022-05-05
# コミュニケーション効率の高い適応型連合学習

Communication-Effici ent Adaptive Federated Learning ( http://arxiv.org/abs/2205.02719v1 )

ライセンス: Link先を確認
Yujia Wang, Lu Lin, Jinghui Chen(参考訳) フェデレーション学習(federated learning)は、クライアントが独自のローカライズデータを共有することなく、共同でモデルをトレーニング可能な、マシンラーニングトレーニングパラダイムである。 しかし、繰り返しサーバ-クライアント同期による通信オーバーヘッドの増大や、SGDベースのモデル更新による適応性の欠如など、実際にはフェデレーション学習の実装には多くの課題がある。 勾配圧縮や量子化による通信コスト削減のための様々な手法が提案されているが、FedAdamのような適応最適化器の連合版は適応性を高めるために提案されているが、現在の連合学習フレームワークは上記の課題をすべて一度に解くことはできない。 本稿では,理論収束を保証する新しいコミュニケーション効率適応型フェデレーション学習法(FedCAMS)を提案する。 我々は、非凸確率最適化設定において、提案したFedCAMSが、非圧縮の値と同じ$O(\frac{1}{\sqrt{TKm}})$を得ることを示す。 様々なベンチマークに関する大規模な実験は、我々の理論分析を検証する。

Federated learning is a machine learning training paradigm that enables clients to jointly train models without sharing their own localized data. However, the implementation of federated learning in practice still faces numerous challenges, such as the large communication overhead due to the repetitive server-client synchronization and the lack of adaptivity by SGD-based model updates. Despite that various methods have been proposed for reducing the communication cost by gradient compression or quantization, and the federated versions of adaptive optimizers such as FedAdam are proposed to add more adaptivity, the current federated learning framework still cannot solve the aforementioned challenges all at once. In this paper, we propose a novel communication-effici ent adaptive federated learning method (FedCAMS) with theoretical convergence guarantees. We show that in the nonconvex stochastic optimization setting, our proposed FedCAMS achieves the same convergence rate of $O(\frac{1}{\sqrt{TKm}})$ as its non-compressed counterparts. Extensive experiments on various benchmarks verify our theoretical analysis.
翻訳日:2022-05-06 13:59:10 公開日:2022-05-05
# 有害な毒性トリガーに対するロバストな会話エージェント

Robust Conversational Agents against Imperceptible Toxicity Triggers ( http://arxiv.org/abs/2205.02392v1 )

ライセンス: Link先を確認
Ninareh Mehrabi, Ahmad Beirami, Fred Morstatter, Aram Galstyan(参考訳) 警告:この論文には、おそらく不快または動揺するコンテンツが含まれている。 自然言語処理(NLP)の最近の研究は、既存のシステムから有害言語を識別・緩和する目的で、様々な毒性検出モデルの開発を進めてきた。 この分野の研究は豊富であるが、システムに対して有毒な言語とそれらに対する防御を強制する敵対的な攻撃にはあまり注意が払われていない。 このような攻撃を発生させるための既存の作業は、コストがかかりスケーラブルでない人為的な攻撃に基づいているか、自動攻撃の場合、攻撃ベクトルは、言語モデル損失を使って検出できる人的言語に適合しない。 本研究は,非知覚的,すなわち一貫性,関連性,流動性という観点で会話に適合する会話エージェントに対する攻撃を提案するが,効果的かつスケーラブルであり,システムを自動的にトリガして有毒な言語を生成することができる。 次に,攻撃を緩和するだけでなく,会話の流れの維持を図るような攻撃に対する防御機構を提案する。 自動的および人間的評価により, 生成した言語がコヒーレンシと関連性という観点で会話に適合している間に, 有害な言語発生を防止できることを示した。 最後に,会話エージェントを超えた言語生成モデルにおけるそのような防御機構の一般化性を確立する。

Warning: this paper contains content that maybe offensive or upsetting. Recent research in Natural Language Processing (NLP) has advanced the development of various toxicity detection models with the intention of identifying and mitigating toxic language from existing systems. Despite the abundance of research in this area, less attention has been given to adversarial attacks that force the system to generate toxic language and the defense against them. Existing work to generate such attacks is either based on human-generated attacks which is costly and not scalable or, in case of automatic attacks, the attack vector does not conform to human-like language, which can be detected using a language model loss. In this work, we propose attacks against conversational agents that are imperceptible, i.e., they fit the conversation in terms of coherency, relevancy, and fluency, while they are effective and scalable, i.e., they can automatically trigger the system into generating toxic language. We then propose a defense mechanism against such attacks which not only mitigates the attack but also attempts to maintain the conversational flow. Through automatic and human evaluations, we show that our defense is effective at avoiding toxic language generation even against imperceptible toxicity triggers while the generated language fits the conversation in terms of coherency and relevancy. Lastly, we establish the generalizability of such a defense mechanism on language generation models beyond conversational agents.
翻訳日:2022-05-06 13:58:51 公開日:2022-05-05
# 負の蒸留によるニューラルダイアログ生成の多様化

Diversifying Neural Dialogue Generation via Negative Distillation ( http://arxiv.org/abs/2205.02795v1 )

ライセンス: Link先を確認
Yiwei Li, Shaoxiong Feng, Bin Sun, Kan Li(参考訳) 生成対話モデルは一般的な応答問題に苦しめられ、いくつかのおもちゃのシナリオに制限されている。 近年,学習中に高周波応答を起こさないようモデルに促すことにより,この問題を緩和する興味深いアプローチ,すなわち負のトレーニングが提案されている。 しかし、その性能は低周波だが汎用的な応答を無視し、低周波だが無意味な応答をもたらすという2つの問題によって妨げられている。 本稿では,上記の問題を回避しつつ,望ましくない総括的応答からモデルを遠ざけるために,負蒸留と呼ばれる新しい負の学習パラダイムを提案する。 まず,問合せに汎用的な応答を生成できる負の教師モデルを導入し,その後,多レベル負の知識で距離を最大化するために学生モデルが必要となる。 実験の結果,本手法は従来の負の訓練方法よりも有意に優れていた。

Generative dialogue models suffer badly from the generic response problem, limiting their applications to a few toy scenarios. Recently, an interesting approach, namely negative training, has been proposed to alleviate this problem by reminding the model not to generate high-frequency responses during training. However, its performance is hindered by two issues, ignoring low-frequency but generic responses and bringing low-frequency but meaningless responses. In this paper, we propose a novel negative training paradigm, called negative distillation, to keep the model away from the undesirable generic responses while avoiding the above problems. First, we introduce a negative teacher model that can produce query-wise generic responses, and then the student model is required to maximize the distance with multi-level negative knowledge. Empirical results show that our method outperforms previous negative training methods significantly.
翻訳日:2022-05-06 13:58:28 公開日:2022-05-05
# 異なるDeep Metric Learning Lossesは、同様の学習特徴をもたらすか?

Do Different Deep Metric Learning Losses Lead to Similar Learned Features? ( http://arxiv.org/abs/2205.02698v1 )

ライセンス: Link先を確認
Konstantin Kobs, Michael Steininger, Andrzej Dulny, Andreas Hotho(参考訳) 近年の研究では、多くの深度学習損失関数が同じ実験条件下でも同様に機能することが示されている。 この予期せぬ結果の潜在的な理由は、すべての損失により、ネットワークが同様の画像領域やプロパティに集中できるためである。 本稿では,異なる損失関数で訓練された同じモデルアーキテクチャの学習された視覚的特徴を抽出し,比較するために2段階解析を行い,これを考察する: まず,同じ入力画像のサリエンシマップを関連づけることで,画素レベルの学習した特徴を比較する。 第2に,物体の色や照明など,複数の画像特性に対する埋め込みのクラスタリングを比較した。 これらの特性を独立に制御するために、Cars196データセットの画像と同様の写実的な3Dカーレンダリングを生成する。 分析では、最近行った14の事前学習モデルを比較し、全てのモデルが同様に機能するにもかかわらず、異なる損失関数がモデルに異なる特徴を学習させることができることを示した。 特に分類とランキングに基づく損失の差が見られます。 また,本分析の結果から,一見無関係な性質が埋没に重大な影響を及ぼす可能性が示唆された。 我々は,深層学習コミュニティの研究者に対して,提案手法によって学習された特徴に対する洞察を得るために,我々の手法を利用することを勧める。

Recent studies have shown that many deep metric learning loss functions perform very similarly under the same experimental conditions. One potential reason for this unexpected result is that all losses let the network focus on similar image regions or properties. In this paper, we investigate this by conducting a two-step analysis to extract and compare the learned visual features of the same model architecture trained with different loss functions: First, we compare the learned features on the pixel level by correlating saliency maps of the same input images. Second, we compare the clustering of embeddings for several image properties, e.g. object color or illumination. To provide independent control over these properties, photo-realistic 3D car renders similar to images in the Cars196 dataset are generated. In our analysis, we compare 14 pretrained models from a recent study and find that, even though all models perform similarly, different loss functions can guide the model to learn different features. We especially find differences between classification and ranking based losses. Our analysis also shows that some seemingly irrelevant properties can have significant influence on the resulting embedding. We encourage researchers from the deep metric learning community to use our methods to get insights into the features learned by their proposed methods.
翻訳日:2022-05-06 13:58:13 公開日:2022-05-05
# モデルトレーニングにおける等機会公平性の最適化

Optimising Equal Opportunity Fairness in Model Training ( http://arxiv.org/abs/2205.02393v1 )

ライセンス: Link先を確認
Aili Shen, Xudong Han, Trevor Cohn, Timothy Baldwin, Lea Frermann(参考訳) 現実世界のデータセットは、しばしばステレオタイプや社会バイアスを符号化する。 このようなバイアスは訓練されたモデルによって暗黙的に捉えられ、バイアスのある予測と既存の社会的先入観の悪化につながる。 敵対的なトレーニングや表現から保護された情報を取り除くといった既存のデバイアス手法は、バイアスを減らすことが示されている。 しかし,フェアネス基準とトレーニング目標の分離は,異なる手法の有効性を理論的に判断することが困難である。 本研究では,広く使用されている「機会平等」の基準を直接最適化する2つの新しい学習目標を提案し,2つの分類タスクにおいて高い性能を維持しつつバイアス低減に効果的であることを示す。

Real-world datasets often encode stereotypes and societal biases. Such biases can be implicitly captured by trained models, leading to biased predictions and exacerbating existing societal preconceptions. Existing debiasing methods, such as adversarial training and removing protected information from representations, have been shown to reduce bias. However, a disconnect between fairness criteria and training objectives makes it difficult to reason theoretically about the effectiveness of different techniques. In this work, we propose two novel training objectives which directly optimise for the widely-used criterion of {\it equal opportunity}, and show that they are effective in reducing bias while maintaining high performance over two classification tasks.
翻訳日:2022-05-06 13:55:39 公開日:2022-05-05
# 大規模オンラインビデオサービスにおけるマルチグラフベースマルチセナリオ推薦

Multi-Graph based Multi-Scenario Recommendation in Large-scale Online Video Services ( http://arxiv.org/abs/2205.02446v1 )

ライセンス: Link先を確認
Fan Zhang, Qiuying Peng, Yulin Wu, Zheng Pan, Rong Zeng, Da Lin, Yue Qi(参考訳) 近年,深層学習法の継続的なアップグレードにより,産業レコメンデーションサービスが強化されている。 しかし、露光バイアスやコールドスタート問題といったバイアスの低い課題に直面しており、人間のインタラクション履歴に関する機械学習トレーニングの循環によってアルゴリズムは、あまりアクティブでないものを無視しながら、露出アイテムを繰り返し提案する。 例えば、補助的なシナリオからの適切なデータ融合は、メッセージパッシングを通じてグラフ構造化されたデータ統合によって緩和される可能性がある。 本稿では,マルチグラフによるシナリオ間のインタラクションデータをカプセル化し,グラフ学習による表現を得るマルチグラフ構造化マルチシナリオレコメンデーションソリューションを提案する。 実世界のデータセットに関する広範囲なオフラインおよびオンライン実験を行い、本手法は、ベースラインの配置よりも、新規ユーザ1人あたりのctrおよびビデオビューの0.63%および0.71%の増加を示し、通常の方法よりも、25%のscenarioビデオ数と116%のビデオウォッチ数を増加させ、コールドビデオの活性化における優位性を検証し、ターゲットレコメンデーションを充実させる。

Recently, industrial recommendation services have been boosted by the continual upgrade of deep learning methods. However, they still face de-biasing challenges such as exposure bias and cold-start problem, where circulations of machine learning training on human interaction history leads algorithms to repeatedly suggest exposed items while ignoring less-active ones. Additional problems exist in multi-scenario platforms, e.g. appropriate data fusion from subsidiary scenarios, which we observe could be alleviated through graph structured data integration via message passing. In this paper, we present a multi-graph structured multi-scenario recommendation solution, which encapsulates interaction data across scenarios with multi-graph and obtains representation via graph learning. Extensive offline and online experiments on real-world datasets are conducted where the proposed method demonstrates an increase of 0.63% and 0.71% in CTR and Video Views per capita on new users over deployed set of baselines and outperforms regular method in increasing the number of outer-scenario videos by 25% and video watches by 116%, validating its superiority in activating cold videos and enriching target recommendation.
翻訳日:2022-05-06 13:55:27 公開日:2022-05-05
# (参考訳) 1つのサイズがすべてに合致しない:パーソナライズされた単語複雑性モデルの場合 [全文訳有]

One Size Does Not Fit All: The Case for Personalised Word Complexity Models ( http://arxiv.org/abs/2205.02564v1 )

ライセンス: CC BY 4.0
Sian Gooding and Manuel Tragut(参考訳) 複雑な単語識別(CWI)は、読者が理解し難いと思われるテキスト内の単語を検出することを目的としている。 CWIシステムは、テキストの単純化、可読性予測、語彙獲得モデリングを改善することができる。 しかし、単語の難しさは、読み手の第一言語、習熟度、読書経験に依存する非常に慣用的な概念である。 本稿では,個人読者の単語の複雑さを予測する上で,個人モデルが最も優れていることを示す。 私たちは、個人に合わせてモデルを調整し、さらなる研究のためのベンチマークとして複雑性アノテーションとモデルのデータセットをリリースすることのできる、新しいアクティブな学習フレームワークを使用しています。

Complex Word Identification (CWI) aims to detect words within a text that a reader may find difficult to understand. It has been shown that CWI systems can improve text simplification, readability prediction and vocabulary acquisition modelling. However, the difficulty of a word is a highly idiosyncratic notion that depends on a reader's first language, proficiency and reading experience. In this paper, we show that personal models are best when predicting word complexity for individual readers. We use a novel active learning framework that allows models to be tailored to individuals and release a dataset of complexity annotations and models as a benchmark for further research.
翻訳日:2022-05-06 13:52:35 公開日:2022-05-05
# CoGMEN: コンテクスト化されたGNNベースのマルチモーダル感情認識

COGMEN: COntextualized GNN based Multimodal Emotion recognitioN ( http://arxiv.org/abs/2205.02455v1 )

ライセンス: Link先を確認
Abhinav Joshi and Ashwani Bhat and Ayush Jain and Atin Vikram Singh and Ashutosh Modi(参考訳) 感情は人間のインタラクションに固有の部分であり、人間の感情を理解し認識するaiシステムを開発することが不可欠である。 様々な人々の会話において、人の感情は他の話者の発話と、その発話に対する自身の感情状態に影響される。 本稿では,ローカル情報(話者間の相互依存)とグローバル情報(コンテキスト)を活用した,コンテキスト付きグラフニューラルネットワークによる多モード感情認識(cogmen)システムを提案する。 提案モデルはグラフニューラルネットワーク(GNN)に基づくアーキテクチャを用いて,会話における複雑な依存関係(ローカルおよびグローバル情報)をモデル化する。 このモデルはiemocapとmoseiデータセットの最先端(sota)結果を与え、詳細なアブレーション実験は両方のレベルでのモデリング情報の重要性を示している。

Emotions are an inherent part of human interactions, and consequently, it is imperative to develop AI systems that understand and recognize human emotions. During a conversation involving various people, a person's emotions are influenced by the other speaker's utterances and their own emotional state over the utterances. In this paper, we propose COntextualized Graph Neural Network based Multimodal Emotion recognitioN (COGMEN) system that leverages local information (i.e., inter/intra dependency between speakers) and global information (context). The proposed model uses Graph Neural Network (GNN) based architecture to model the complex dependencies (local and global information) in a conversation. Our model gives state-of-the-art (SOTA) results on IEMOCAP and MOSEI datasets, and detailed ablation experiments show the importance of modeling information at both levels.
翻訳日:2022-05-06 13:38:58 公開日:2022-05-05
# 自己注意型自然言語推論によるパンデミッククレームの精度評価

Natural Language Inference with Self-Attention for Veracity Assessment of Pandemic Claims ( http://arxiv.org/abs/2205.02596v1 )

ライセンス: Link先を確認
M. Arana-Catania, Elena Kochkina, Arkaitz Zubiaga, Maria Liakata, Rob Procter, Yulan He(参考訳) 我々は、データセット作成からNLI(Natural Language Inference)に基づく新しい手法開発までの自動妥当性評価に関する総合的な研究を行い、新型コロナウイルスのパンデミックに関連する誤報に焦点を当てた。 まず、COVID-19とその情報ソースに関する異質なクレームからなる新しいPANACEAデータセットの構築について述べる。 データセットの構築には、ユニークなクレームセットを保証するために、検索テクニックと類似度測定に関する作業が含まれている。 そこで我々は,グラフ畳み込みネットワークや注目に基づくアプローチを含む自然言語推論に基づく自動妥当性評価手法を提案する。 我々は,提案手法を用いて,データセットの証拠検索と妥当性評価実験を行い,SOTA法と競合することを示すとともに,詳細な議論を行った。

We present a comprehensive work on automated veracity assessment from dataset creation to developing novel methods based on Natural Language Inference (NLI), focusing on misinformation related to the COVID-19 pandemic. We first describe the construction of the novel PANACEA dataset consisting of heterogeneous claims on COVID-19 and their respective information sources. The dataset construction includes work on retrieval techniques and similarity measurements to ensure a unique set of claims. We then propose novel techniques for automated veracity assessment based on Natural Language Inference including graph convolutional networks and attention based approaches. We have carried out experiments on evidence retrieval and veracity assessment on the dataset using the proposed techniques and found them competitive with SOTA methods, and provided a detailed discussion.
翻訳日:2022-05-06 13:38:42 公開日:2022-05-05
# マルコフ等価DAGのカウントとサンプリングのための多項式時間アルゴリズムとその応用

Polynomial-Time Algorithms for Counting and Sampling Markov Equivalent DAGs with Applications ( http://arxiv.org/abs/2205.02654v1 )

ライセンス: Link先を確認
Marcel Wien\"obst, Max Bannach, Maciej Li\'skiewicz(参考訳) マルコフ同値類からの有向非巡回グラフのカウントとサンプリングは、グラフィカル因果解析の基本的なタスクである。 本稿では,これらのタスクを多項式時間で実行することができ,この分野における長年のオープンな問題を解く。 我々のアルゴリズムは効果的で容易に実装できる。 実験で示されたように、これらのブレークスルーは、マルコフ同値類に関する因果構造の活発な学習と因果効果の同定において、事実上適用可能である。

Counting and sampling directed acyclic graphs from a Markov equivalence class are fundamental tasks in graphical causal analysis. In this paper we show that these tasks can be performed in polynomial time, solving a long-standing open problem in this area. Our algorithms are effective and easily implementable. As we show in experiments, these breakthroughs make thought-to-be-infeas ible strategies in active learning of causal structures and causal effect identification with regard to a Markov equivalence class practically applicable.
翻訳日:2022-05-06 13:38:31 公開日:2022-05-05
# GANimator:単一シーケンスからのニューラルモーション合成

GANimator: Neural Motion Synthesis from a Single Sequence ( http://arxiv.org/abs/2205.02625v1 )

ライセンス: Link先を確認
Peizhuo Li, Kfir Aberman, Zihan Zhang, Rana Hanocka, Olga Sorkine-Hornung(参考訳) 本稿では,単一の短い動き列から新しい動きを合成することを学ぶ生成モデルであるGANimatorを提案する。 GANimatorはオリジナルの動きのコア要素に類似した動きを生成し、同時に新規で多様な動きを合成する。 既存の動き合成のためのデータ駆動技術は、望ましい骨格構造と特定の骨格構造を含む大きな動きデータセットを必要とする。 対照的に、GANimatorは単一のモーションシーケンスのトレーニングしか必要とせず、例えば二足歩行、四足歩行、六足歩行など、様々な骨格構造のための新しいモーション合成を可能にする。 我々のフレームワークは、それぞれ特定のフレームレートで動きを発生させる責任を負う、一連の生成的および敵対的ニューラルネットワークを含んでいる。 このフレームワークはランダムノイズから動きを漸進的に合成し、様々なディテールレベルにわたって生成された動きコンテンツの階層的制御を可能にする。 クラウドシミュレーション,キーフレーム編集,スタイル転送,対話型制御など,さまざまな応用例を示し,それぞれが単一の入力シーケンスから学習する。 コードとデータはhttps://peizhuoli.gi thub.io/ganimatorにある。

We present GANimator, a generative model that learns to synthesize novel motions from a single, short motion sequence. GANimator generates motions that resemble the core elements of the original motion, while simultaneously synthesizing novel and diverse movements. Existing data-driven techniques for motion synthesis require a large motion dataset which contains the desired and specific skeletal structure. By contrast, GANimator only requires training on a single motion sequence, enabling novel motion synthesis for a variety of skeletal structures e.g., bipeds, quadropeds, hexapeds, and more. Our framework contains a series of generative and adversarial neural networks, each responsible for generating motions in a specific frame rate. The framework progressively learns to synthesize motion from random noise, enabling hierarchical control over the generated motion content across varying levels of detail. We show a number of applications, including crowd simulation, key-frame editing, style transfer, and interactive control, which all learn from a single input sequence. Code and data for this paper are at https://peizhuoli.gi thub.io/ganimator.
翻訳日:2022-05-06 13:38:21 公開日:2022-05-05
# 自分にとって正しいことはまだ正しくない:マルチタスク学習による相対方向のグラウンド化のためのデータセット

What is Right for Me is Not Yet Right for You: A Dataset for Grounding Relative Directions via Multi-Task Learning ( http://arxiv.org/abs/2205.02671v1 )

ライセンス: Link先を確認
Jae Hee Lee, Matthias Kerzel, Kyra Ahrens, Cornelius Weber and Stefan Wermter(参考訳) 空間的関係を理解することは、知的エージェントが物理的な世界で行動しコミュニケーションするために不可欠である。 相対方向は、参照対象の固有方向に関して対象対象の相対位置を記述する空間関係である。 相対方向の接地は、画像内の物体を検出し、その情報に基づいて空間的関係を識別するためのモデルを必要とするだけでなく、物体の向きを認識し、その情報を推論プロセスに統合する必要があるため、絶対方向の接地よりも難しい。 終端ニューラルネットワークによる相対方向の接地問題について検討する。 この目的のために我々は,CLEVRなどの既存の視覚質問応答(VQA)データセットを補完する,相対方向のみを含む新しいデータセットであるGRiD-3Dを提供する。 また、2つの確立されたエンドツーエンドのVQAモデルでデータセットのベースラインを提供します。 実験により,相対方向の解答は,相対方向の解答に必要なサブタスクをシミュレートする場合に実現可能であることが示された。 これらのサブタスクは、相対方向を処理する直感的なパイプラインのステップを反映した順序で学習される。

Understanding spatial relations is essential for intelligent agents to act and communicate in the physical world. Relative directions are spatial relations that describe the relative positions of target objects with regard to the intrinsic orientation of reference objects. Grounding relative directions is more difficult than grounding absolute directions because it not only requires a model to detect objects in the image and to identify spatial relation based on this information, but it also needs to recognize the orientation of objects and integrate this information into the reasoning process. We investigate the challenging problem of grounding relative directions with end-to-end neural networks. To this end, we provide GRiD-3D, a novel dataset that features relative directions and complements existing visual question answering (VQA) datasets, such as CLEVR, that involve only absolute directions. We also provide baselines for the dataset with two established end-to-end VQA models. Experimental evaluations show that answering questions on relative directions is feasible when questions in the dataset simulate the necessary subtasks for grounding relative directions. We discover that those subtasks are learned in an order that reflects the steps of an intuitive pipeline for processing relative directions.
翻訳日:2022-05-06 13:38:03 公開日:2022-05-05
# (参考訳) OPT: 事前学習型トランスフォーマー言語モデル [全文訳有]

OPT: Open Pre-trained Transformer Language Models ( http://arxiv.org/abs/2205.01068v3 )

ライセンス: CC BY 4.0
Susan Zhang, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen, Christopher Dewan, Mona Diab, Xian Li, Xi Victoria Lin, Todor Mihaylov, Myle Ott, Sam Shleifer, Kurt Shuster, Daniel Simig, Punit Singh Koura, Anjali Sridhar, Tianlu Wang, Luke Zettlemoyer(参考訳) 数十万日にわたって訓練されている大規模な言語モデルは、ゼロショットと少数ショットの学習に顕著な能力を示している。 計算コストを考えると、これらのモデルは大金なしで複製することは困難である。 APIを通じて利用できる少数の人にとっては、完全なモデルウェイトへのアクセスは許可されていないため、研究は困難である。 我々は,125mから175bのパラメータを持つデコーダ専用プリトレーニングトランスのスイートであるopen pre-trained transformers (opt)を提案する。 OPT-175BはGPT-3と同等であり, 炭素フットプリントの1/7しか必要としない。 また、私たちが直面したインフラストラクチャの課題の詳細と、リリースしたすべてのモデルを試すためのコードもリリースしています。

Large language models, which are often trained for hundreds of thousands of compute days, have shown remarkable capabilities for zero- and few-shot learning. Given their computational cost, these models are difficult to replicate without significant capital. For the few that are available through APIs, no access is granted to the full model weights, making them difficult to study. We present Open Pre-trained Transformers (OPT), a suite of decoder-only pre-trained transformers ranging from 125M to 175B parameters, which we aim to fully and responsibly share with interested researchers. We show that OPT-175B is comparable to GPT-3, while requiring only 1/7th the carbon footprint to develop. We are also releasing our logbook detailing the infrastructure challenges we faced, along with code for experimenting with all of the released models.
翻訳日:2022-05-06 13:16:39 公開日:2022-05-05
# (参考訳) P^3ランキング:プロンプト学習とプレファインタニングによる事前学習とランク付けファインタニングのギャップの緩和 [全文訳有]

P^3 Ranker: Mitigating the Gaps between Pre-training and Ranking Fine-tuning with Prompt-based Learning and Pre-finetuning ( http://arxiv.org/abs/2205.01886v2 )

ライセンス: CC BY 4.0
Xiaomeng Hu, Shi Yu, Chenyan Xiong, Zhenghao Liu, Zhiyuan Liu, Ge Yu(参考訳) 他の言語タスクと比較して、検索ランキングに事前学習された言語モデル(plm)を適用すると、多くのニュアンスとトレーニング信号が必要になる。 本稿では,事前学習とランキングの微調整の2つのミスマッチ,すなわち,学習目標とモデルアーキテクチャの違いに関するトレーニングスキーマギャップと,ランキングに必要な知識と事前学習中に学習した知識の相違を考慮したタスク知識ギャップを同定・検討する。 これらのギャップを軽減するために,P^3ランキング (Pre-trained, Prompt-learned and Pre-finetuned Neural Ranker) を提案する。 P^3 Rankerは、プロンプトベースの学習を活用して、ランキングタスクを事前トレーニングのようなスキーマに変換し、事前ファインタニングを使用して中間教師付きタスクでモデルを初期化する。 MS MARCO と Robust04 の実験では、P^3 Ranker の優位性を示した。 分析の結果,P^3 Ranker は,素早い学習を通じてランキングタスクにより親和性を持たせることができ,必要なランキング指向の知識を抽出し,データ効率のよい PLM 適応をもたらすことがわかった。 私たちのコードはhttps://github.com/N EUIR/P3Ranker.comから入手可能です。

Compared to other language tasks, applying pre-trained language models (PLMs) for search ranking often requires more nuances and training signals. In this paper, we identify and study the two mismatches between pre-training and ranking fine-tuning: the training schema gap regarding the differences in training objectives and model architectures, and the task knowledge gap considering the discrepancy between the knowledge needed in ranking and that learned during pre-training. To mitigate these gaps, we propose Pre-trained, Prompt-learned and Pre-finetuned Neural Ranker (P^3 Ranker). P^3 Ranker leverages prompt-based learning to convert the ranking task into a pre-training like schema and uses pre-finetuning to initialize the model on intermediate supervised tasks. Experiments on MS MARCO and Robust04 show the superior performances of P^3 Ranker in few-shot ranking. Analyses reveal that P^3 Ranker is able to better accustom to the ranking task through prompt-based learning and retrieve necessary ranking-oriented knowledge gleaned in pre-finetuning, resulting in data-efficient PLM adaptation. Our code is available at https://github.com/N EUIR/P3Ranker.
翻訳日:2022-05-06 12:39:11 公開日:2022-05-05
# 自律走行車における軌道予測のための神経進化多目的アプローチ

Neuroevolutionary Multi-objective approaches to Trajectory Prediction in Autonomous Vehicles ( http://arxiv.org/abs/2205.02105v2 )

ライセンス: Link先を確認
Fergal Stapleton, Edgar Galv\'an, Ganesh Sistu and Senthil Yogamani(参考訳) 神経進化と呼ばれるプロセスであるディープニューラルネットワーク(dnn)の自動最適化とトレーニングに進化アルゴリズム(eas)を使用するインセンティブは、近年勢いを増している。 これらのネットワークの構成とトレーニングは最適化問題として考えられる。 実際、神経進化に関する最近の研究の多くは、単目的最適化に重点を置いている。 さらに、神経進化と進化的多目的最適化(EMO)の交差点で実施された小さな研究から、これまで実施されてきたすべての研究は、MNISTのような確立された標準ベンチマーク問題を使用して、1種類のDNN(畳み込みニューラルネットワーク)の使用に主に焦点を合わせてきた。 本研究では,CNNとLong-Short Term MemoryネットワークからなるリッチDNNを用いて,これら2つの領域(神経進化とEMO)の理解を飛躍的に進める。 さらに,ロバストで挑戦的な車両軌道予測問題を用いる。 既知の非支配的ソート遺伝アルゴリズムiiを用いて,3つのカテゴリでテストされた5つの異なる目的の効果について検討し,これらの目的が自律走行車における軌道予測に対する神経進化における肯定的あるいは有害な効果を示す。

The incentive for using Evolutionary Algorithms (EAs) for the automated optimization and training of deep neural networks (DNNs), a process referred to as neuroevolution, has gained momentum in recent years. The configuration and training of these networks can be posed as optimization problems. Indeed, most of the recent works on neuroevolution have focused their attention on single-objective optimization. Moreover, from the little research that has been done at the intersection of neuroevolution and evolutionary multi-objective optimization (EMO), all the research that has been carried out has focused predominantly on the use of one type of DNN: convolutional neural networks (CNNs), using well-established standard benchmark problems such as MNIST. In this work, we make a leap in the understanding of these two areas (neuroevolution and EMO), regarded in this work as neuroevolutionary multi-objective, by using and studying a rich DNN composed of a CNN and Long-short Term Memory network. Moreover, we use a robust and challenging vehicle trajectory prediction problem. By using the well-known Non-dominated Sorting Genetic Algorithm-II, we study the effects of five different objectives, tested in categories of three, allowing us to show how these objectives have either a positive or detrimental effect in neuroevolution for trajectory prediction in autonomous vehicles.
翻訳日:2022-05-06 12:27:13 公開日:2022-05-05
# (参考訳) ASE: 物理的にシミュレートされたキャラクタのための大規模再利用可能な逆スキル埋め込み [全文訳有]

ASE: Large-Scale Reusable Adversarial Skill Embeddings for Physically Simulated Characters ( http://arxiv.org/abs/2205.01906v2 )

ライセンス: CC BY 4.0
Xue Bin Peng, Yunrong Guo, Lina Halper, Sergey Levine, Sanja Fidler(参考訳) 人間によって実証された驚くべき運動の偉業は、長年の練習と経験を通じて獲得された汎用モータースキルの膨大なレパートリーによって可能になった。 これらのスキルは、人間が複雑なタスクを実行できるだけでなく、新しいタスクを学ぶときの行動を導くための強力な先行手段を提供する。 これは、物理ベースのキャラクターアニメーションにおいて一般的な慣習とは対照的であり、各タスクのスクラッチから制御ポリシーがほとんど訓練される。 本稿では,物理的にシミュレートされた文字に対する多用途かつ再利用可能なスキル埋め込みを学習するための大規模データ駆動フレームワークを提案する。 提案手法は, 逆模倣学習と教師なし強化学習を併用して, ライフライクな振る舞いを生み出すスキル埋め込みを開発するとともに, 新たな下流タスクで使用するための簡易な制御表現を提供する。 我々のモデルは、タスク固有のアノテーションや動作データのセグメンテーションを必要とせずに、非構造化モーションクリップの大規模なデータセットを使用して訓練することができる。 高度に並列なgpuベースのシミュレータを利用することで、10年以上のシミュレーション経験を使ってスキル埋め込みをトレーニングすることができ、当社のモデルがリッチで多用途なスキルのレパートリーを学べるようになります。 本研究では,1つの事前学習モデルを多種多様なタスクに効果的に適用できることを示す。 また,本システムでは,簡単な報酬関数によってタスクを指定でき,スキル埋め込みにより,タスク目標を達成するために,文字が自動的に複雑で自然主義的な戦略を合成することができる。

The incredible feats of athleticism demonstrated by humans are made possible in part by a vast repertoire of general-purpose motor skills, acquired through years of practice and experience. These skills not only enable humans to perform complex tasks, but also provide powerful priors for guiding their behaviors when learning new tasks. This is in stark contrast to what is common practice in physics-based character animation, where control policies are most typically trained from scratch for each task. In this work, we present a large-scale data-driven framework for learning versatile and reusable skill embeddings for physically simulated characters. Our approach combines techniques from adversarial imitation learning and unsupervised reinforcement learning to develop skill embeddings that produce life-like behaviors, while also providing an easy to control representation for use on new downstream tasks. Our models can be trained using large datasets of unstructured motion clips, without requiring any task-specific annotation or segmentation of the motion data. By leveraging a massively parallel GPU-based simulator, we are able to train skill embeddings using over a decade of simulated experiences, enabling our model to learn a rich and versatile repertoire of skills. We show that a single pre-trained model can be effectively applied to perform a diverse set of new tasks. Our system also allows users to specify tasks through simple reward functions, and the skill embedding then enables the character to automatically synthesize complex and naturalistic strategies in order to achieve the task objectives.
翻訳日:2022-05-06 12:25:26 公開日:2022-05-05
# i-Code: 統合的で構成可能なマルチモーダル学習フレームワーク

i-Code: An Integrative and Composable Multimodal Learning Framework ( http://arxiv.org/abs/2205.01818v2 )

ライセンス: Link先を確認
Ziyi Yang, Yuwei Fang, Chenguang Zhu, Reid Pryzant, Dongdong Chen, Yu Shi, Yichong Xu, Yao Qian, Mei Gao, Yi-Ling Chen, Liyang Lu, Yujia Xie, Robert Gmyr, Noel Codella, Naoyuki Kanda, Bin Xiao, Lu Yuan, Takuya Yoshioka, Michael Zeng, Xuedong Huang(参考訳) 人間の知性は多様であり、視覚、言語、音響信号を統合して全体観を維持する。 しかし、現在の事前訓練法のほとんどは、1つまたは2つのモードに制限されている。 視覚・音声・言語を統一的・汎用的なベクトル表現に柔軟に組み合わせた自己教師付き事前学習フレームワークであるi-codeを提案する。 このフレームワークでは、各モダリティからのデータは、まずプリトレーニングされたシングルモダリティエンコーダに与えられる。 エンコーダ出力はマルチモーダル融合ネットワークと統合され、新しいアテンション機構と他のアーキテクチャ上の革新を用いて、異なるモダリティからの情報を効果的に結合する。 システム全体は、マスクモダリティユニットモデリングとクロスモダリティコントラスト学習を含む新しい目的により、エンドツーエンドで事前訓練されている。 事前トレーニングのためにビデオのみを使用した以前の研究とは異なり、i-Codeフレームワークはトレーニングと推論中に動的にシングル、ダブル、トリプルのモダリティデータを処理し、異なるモダリティの組み合わせを柔軟に単一の表現空間に投影する。 実験により、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善し、統合的マルチモーダル事前学習のパワーを示す。

Human intelligence is multimodal; we integrate visual, linguistic, and acoustic signals to maintain a holistic worldview. Most current pretraining methods, however, are limited to one or two modalities. We present i-Code, a self-supervised pretraining framework where users may flexibly combine the modalities of vision, speech, and language into unified and general-purpose vector representations. In this framework, data from each modality are first given to pretrained single-modality encoders. The encoder outputs are then integrated with a multimodal fusion network, which uses novel attention mechanisms and other architectural innovations to effectively combine information from the different modalities. The entire system is pretrained end-to-end with new objectives including masked modality unit modeling and cross-modality contrastive learning. Unlike previous research using only video for pretraining, the i-Code framework can dynamically process single, dual, and triple-modality data during training and inference, flexibly projecting different combinations of modalities into a single representation space. Experimental results demonstrate how i-Code can outperform state-of-the-art techniques on five video understanding tasks and the GLUE NLP benchmark, improving by as much as 11% and demonstrating the power of integrative multimodal pretraining.
翻訳日:2022-05-06 11:45:49 公開日:2022-05-05
# 科学的説明と自然言語: 説明可能なAIのための統一認識言語学的視点

Scientific Explanation and Natural Language: A Unified Epistemological-Ling uistic Perspective for Explainable AI ( http://arxiv.org/abs/2205.01809v2 )

ライセンス: Link先を確認
Marco Valentino, Andr\'e Freitas(参考訳) 説明可能なAI(XAI)の基本的な研究目標は、自然言語の説明の生成を通じて推論可能なモデルを構築することである。 しかしながら、説明に基づく推論モデルの設計と評価の方法論は、説明の性質に関する理論的な説明によってはまだ不十分である。 本稿では,xaiの認識論的基盤化の試みとして,科学的領域に着目し,理論と実践のギャップを科学的な説明の概念に橋渡しすることを目的とした。 具体的には、科学哲学における科学的説明の現代的説明と自然言語説明のコーパスの体系的分析を組み合わせ、トップダウン(カテゴリー)とボトムアップ(コーパスベース)の両方の観点から説明論の性質と機能を明らかにする。 Through a mixture of quantitative and qualitative methodologies, the presented study allows deriving the following main conclusions: (1) Explanations cannot be entirely characterised in terms of inductive or deductive arguments as their main function is to perform unification; (2) An explanation must cite causes and mechanisms that are responsible for the occurrence of the event to be explained; (3) While natural language explanations possess an intrinsic causal-mechanistic nature, they are not limited to causes and mechanisms, also accounting for pragmatic elements such as definitions, properties and taxonomic relations; (4) Patterns of unification naturally emerge in corpora of explanations even if not intentionally modelled; (5) Unification is realised through a process of abstraction, whose function is to provide the inference substrate for subsuming the event to be explained under recurring patterns and high-level regularities.

A fundamental research goal for Explainable AI (XAI) is to build models that are capable of reasoning through the generation of natural language explanations. However, the methodologies to design and evaluate explanation-based inference models are still poorly informed by theoretical accounts on the nature of explanation. As an attempt to provide an epistemologically grounded characterisation for XAI, this paper focuses on the scientific domain, aiming to bridge the gap between theory and practice on the notion of a scientific explanation. Specifically, the paper combines a detailed survey of the modern accounts of scientific explanation in Philosophy of Science with a systematic analysis of corpora of natural language explanations, clarifying the nature and function of explanatory arguments from both a top-down (categorical) and a bottom-up (corpus-based) perspective. Through a mixture of quantitative and qualitative methodologies, the presented study allows deriving the following main conclusions: (1) Explanations cannot be entirely characterised in terms of inductive or deductive arguments as their main function is to perform unification; (2) An explanation must cite causes and mechanisms that are responsible for the occurrence of the event to be explained; (3) While natural language explanations possess an intrinsic causal-mechanistic nature, they are not limited to causes and mechanisms, also accounting for pragmatic elements such as definitions, properties and taxonomic relations; (4) Patterns of unification naturally emerge in corpora of explanations even if not intentionally modelled; (5) Unification is realised through a process of abstraction, whose function is to provide the inference substrate for subsuming the event to be explained under recurring patterns and high-level regularities.
翻訳日:2022-05-06 11:45:26 公開日:2022-05-05
# 対話的物語における社会的規範と価値観の整合

Aligning to Social Norms and Values in Interactive Narratives ( http://arxiv.org/abs/2205.01975v2 )

ライセンス: Link先を確認
Prithviraj Ammanabrolu, Liwei Jiang, Maarten Sap, Hannaneh Hajishirzi, Yejin Choi(参考訳) 我々は、対話型物語やテキストベースのゲームにおいて、社会的に有益な規範や価値観に従って行動するエージェントを作成することに注力する。エージェントが自然言語を介して世界を理解し、対話する環境。このような対話型エージェントは、しばしば強化学習を通じて訓練され、タスクパフォーマンスを最適化する。そのような報酬が社会的規範に反するエージェントの行動につながり、エージェント自身または環境内の他のエンティティに害を与える。 社会的価値のアライメントとは、ある状況や人々の集団に対して期待される道徳的・社会的規範に従って行動するエージェントを作成することを指す。 私たちはjiminy cricket benchmark(hendrycks et al. 2021)という、25の注釈付き対話的な物語のセットを構築しています。 GALAD(Game-value ALignment through Action Distillation)エージェントを導入し、特別な訓練を受けた言語モデルに存在するソーシャルコモンセンス知識を用いて、そのアクション空間を社会的に有益な値に整合したアクションに限定する。 実験により,galadエージェントは,現代的価値アライメントアプローチと比較して,社会的に有害な行動の頻度を25%低減しつつ,最先端のタスクパフォーマンスを4%向上できるほど効率的に意思決定を行うことが示された。

We focus on creating agents that act in alignment with socially beneficial norms and values in interactive narratives or text-based games -- environments wherein an agent perceives and interacts with a world through natural language. Such interactive agents are often trained via reinforcement learning to optimize task performance, even when such rewards may lead to agent behaviors that violate societal norms -- causing harm either to the agent itself or other entities in the environment. Social value alignment refers to creating agents whose behaviors conform to expected moral and social norms for a given context and group of people -- in our case, it means agents that behave in a manner that is less harmful and more beneficial for themselves and others. We build on the Jiminy Cricket benchmark (Hendrycks et al. 2021), a set of 25 annotated interactive narratives containing thousands of morally salient scenarios covering everything from theft and bodily harm to altruism. We introduce the GALAD (Game-value ALignment through Action Distillation) agent that uses the social commonsense knowledge present in specially trained language models to contextually restrict its action space to only those actions that are aligned with socially beneficial values. An experimental study shows that the GALAD agent makes decisions efficiently enough to improve state-of-the-art task performance by 4% while reducing the frequency of socially harmful behaviors by 25% compared to strong contemporary value alignment approaches.
翻訳日:2022-05-06 11:44:59 公開日:2022-05-05
# 空間と時間におけるビデオ外挿

Video Extrapolation in Space and Time ( http://arxiv.org/abs/2205.02084v2 )

ライセンス: Link先を確認
Yunzhi Zhang and Jiajun Wu(参考訳) 新しいビュー合成 (NVS) とビデオ予測 (VP) は一般にコンピュータビジョンにおいて不整合タスクとみなされる。 NVSは新たな視点からシーンを合成することを目的としており、VPは新しい視点からシーンを見ることを目的としている。 これらの2つのタスクは、空間観測から視点の変化が深度を知らせ、時間観測がカメラや個々の物体の動きを知らせる。 これらの観測から着想を得て,VEST(Video Extrapolation in Space and Time)の問題について検討する。 既存の手法ではその1つしか解けないが,両タスクからの自己超越と補完的手がかりを利用するモデルを提案する。 実験により,本手法は屋内および屋外の実世界のデータセット上で,いくつかの最先端NVSおよびVP手法に匹敵する性能を発揮することが示された。

Novel view synthesis (NVS) and video prediction (VP) are typically considered disjoint tasks in computer vision. However, they can both be seen as ways to observe the spatial-temporal world: NVS aims to synthesize a scene from a new point of view, while VP aims to see a scene from a new point of time. These two tasks provide complementary signals to obtain a scene representation, as viewpoint changes from spatial observations inform depth, and temporal observations inform the motion of cameras and individual objects. Inspired by these observations, we propose to study the problem of Video Extrapolation in Space and Time (VEST). We propose a model that leverages the self-supervision and the complementary cues from both tasks, while existing methods can only solve one of them. Experiments show that our method achieves performance better than or comparable to several state-of-the-art NVS and VP methods on indoor and outdoor real-world datasets.
翻訳日:2022-05-06 11:44:29 公開日:2022-05-05
# 同一ニューロン, 異なる言語:多言語事前訓練モデルにおけるモルフォシンタクスの探索

Same Neurons, Different Languages: Probing Morphosyntax in Multilingual Pre-trained Models ( http://arxiv.org/abs/2205.02023v2 )

ライセンス: Link先を確認
Karolina Sta\'nczak, Edoardo Ponti, Lucas Torroba Hennigen, Ryan Cotterell, Isabelle Augenstein(参考訳) 多言語事前訓練モデルの成功は、明示的な監督がなくても複数の言語で共有される表現を学習できる能力によって支えられている。 しかし、これらのモデルがどのように言語を一般化するかはまだ不明である。 本研究では,多言語事前学習モデルが文法に関する言語・普遍的抽象化を導出できると推測する。 特に,異なる言語におけるニューロンの同一サブセットに形態合成情報が符号化されているかを検討する。 43の言語と14の形態素合成カテゴリについて,最先端のニューロンレベルプローブを用いて,最初の大規模実験を行った。 以上の結果から, ニューロン間の言語間重複は重要であるが, その範囲はカテゴリーによって異なり, 言語近接や事前学習データサイズによって異なる可能性が示唆された。

The success of multilingual pre-trained models is underpinned by their ability to learn representations shared by multiple languages even in absence of any explicit supervision. However, it remains unclear how these models learn to generalise across languages. In this work, we conjecture that multilingual pre-trained models can derive language-universal abstractions about grammar. In particular, we investigate whether morphosyntactic information is encoded in the same subset of neurons in different languages. We conduct the first large-scale empirical study over 43 languages and 14 morphosyntactic categories with a state-of-the-art neuron-level probe. Our findings show that the cross-lingual overlap between neurons is significant, but its extent may vary across categories and depends on language proximity and pre-training data size.
翻訳日:2022-05-06 11:44:10 公開日:2022-05-05
# LiDARに基づく3次元物体検出のためのコストアウェア評価とモデルスケーリング

Cost-Aware Evaluation and Model Scaling for LiDAR-Based 3D Object Detection ( http://arxiv.org/abs/2205.01142v2 )

ライセンス: Link先を確認
Xiaofang Wang, Kris M. Kitani(参考訳) LiDARをベースとした3Dオブジェクト検出に多大な研究努力が注がれており、その経験的性能は大幅に改善されている。 進歩は奨励されているが、見過ごされた問題を観察している: 異なる3D検出器を同じコストで比較することは、まだ一般的ではない。 これにより、最近提案されたアーキテクチャ設計による真のパフォーマンス向上の定量化が困難になる。 本研究の目的は,LiDARを用いた3次元物体検出器の低コスト評価を行うことである。 具体的には、単純なグリッドベースのワンステージ検出器であるSECONDに着目し、元のアーキテクチャをスケールすることで、その性能を異なるコストで解析する。 次に,大規模SECONDとVoxel R-CNNやPV-RCNN++といった最近の3次元検出手法を比較した。 結果は驚きだった。 また,同じレイテンシを使用可能なSECONDは,Waymo Open Datasetの最先端メソッドであるPV-RCNN++のパフォーマンスに適合することがわかった。 scaled secondは、最近発表された多くの3d検出方法に匹敵する。 実験的な比較における推論コストの今後の制御を推奨し、新しい3D検出方法を示す際には、スケールしたSECONDのファミリーを強力なベースラインとして含めることを推奨する。

Considerable research efforts have been devoted to LiDAR-based 3D object detection and its empirical performance has been significantly improved. While the progress has been encouraging, we observe an overlooked issue: it is not yet common practice to compare different 3D detectors under the same cost, e.g., inference latency. This makes it difficult to quantify the true performance gain brought by recently proposed architecture designs. The goal of this work is to conduct a cost-aware evaluation of LiDAR-based 3D object detectors. Specifically, we focus on SECOND, a simple grid-based one-stage detector, and analyze its performance under different costs by scaling its original architecture. Then we compare the family of scaled SECOND with recent 3D detection methods, such as Voxel R-CNN and PV-RCNN++. The results are surprising. We find that, if allowed to use the same latency, SECOND can match the performance of PV-RCNN++, the current state-of-the-art method on the Waymo Open Dataset. Scaled SECOND also easily outperforms many recent 3D detection methods published during the past year. We recommend future research control the inference cost in their empirical comparison and include the family of scaled SECOND as a strong baseline when presenting novel 3D detection methods.
翻訳日:2022-05-06 11:43:55 公開日:2022-05-05
# ANUBIS:新しいデータセットを用いた骨格に基づく行動認識手法のレビューとベンチマーク

ANUBIS: Review and Benchmark Skeleton-Based Action Recognition Methods with a New Dataset ( http://arxiv.org/abs/2205.02071v2 )

ライセンス: Link先を確認
Zhenyue Qin, Yang Liu, Madhawa Perera, Saeed Anwar, Tom Gedeon, Pan Ji, Dongwoo Kim(参考訳) 骨格に基づく行動認識は、行動認識のサブ領域として、注意と人気を素早く蓄積している。 タスクは、人間の調音点によって実行される動作を認識することである。 他のデータモダリティと比較すると、3D人間の骨格表現は簡潔さ、堅牢性、人種的偏見、その他多くの特徴を持つ。 我々は、新しい研究者や既存の研究者に対して、骨格に基づく行動認識の展望に関するロードマップを提供することを目指している。 そこで本研究では,骨格型行動認識の既存の研究について,分類学の形で概説する。 1)データセット,(2)空間的特徴の抽出,(3)時間的パターンのキャプチャ,(4)信号品質の向上の4つのカテゴリに分けた。 それぞれの方法について,簡潔で情報に乏しい記述を提供する。 骨格に基づく行動認識の既存のアプローチについて、より公平かつ包括的な評価を促進するために、大規模な人間の骨格データセットであるANUBISを収集する。 これまでに収集したデータと比較した場合,ANUBISは,(1)最近リリースしたセンサの活用,(2)新しいバックビューの活用,(3)高熱意の育成,(4)新型コロナウイルスのパンデミック時代の行動を含む4つの面で有利である。 ANUBISを用いて、現在の骨格に基づく行動認識器の性能を比較検討する。 本稿の最後には,新しい技術的問題をいくつか挙げて,骨格に基づく行動認識の今後の発展を展望する。 近い将来、骨格に基づく行動認識を商業化するためには、解決する価値があると考えています。 ANUBISのデータセットは以下の通りである。

Skeleton-based action recognition, as a subarea of action recognition, is swiftly accumulating attention and popularity. The task is to recognize actions performed by human articulation points. Compared with other data modalities, 3D human skeleton representations have extensive unique desirable characteristics, including succinctness, robustness, racial-impartiality, and many more. We aim to provide a roadmap for new and existing researchers a on the landscapes of skeleton-based action recognition for new and existing researchers. To this end, we present a review in the form of a taxonomy on existing works of skeleton-based action recognition. We partition them into four major categories: (1) datasets; (2) extracting spatial features; (3) capturing temporal patterns; (4) improving signal quality. For each method, we provide concise yet informatively-suffic ient descriptions. To promote more fair and comprehensive evaluation on existing approaches of skeleton-based action recognition, we collect ANUBIS, a large-scale human skeleton dataset. Compared with previously collected dataset, ANUBIS are advantageous in the following four aspects: (1) employing more recently released sensors; (2) containing novel back view; (3) encouraging high enthusiasm of subjects; (4) including actions of the COVID pandemic era. Using ANUBIS, we comparably benchmark performance of current skeleton-based action recognizers. At the end of this paper, we outlook future development of skeleton-based action recognition by listing several new technical problems. We believe they are valuable to solve in order to commercialize skeleton-based action recognition in the near future. The dataset of ANUBIS is available at: http://hcc-workshop. anu.edu.au/webs/anu1 01/home.
翻訳日:2022-05-06 11:43:32 公開日:2022-05-05