このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220317となっている論文です。

PDF登録状況(公開日: 20220317)

TitleAuthorsAbstract論文公表日・翻訳日
# BrainGB: グラフニューラルネットワークを用いた脳ネットワーク分析のためのベンチマーク

BrainGB: A Benchmark for Brain Network Analysis with Graph Neural Networks ( http://arxiv.org/abs/2204.07054v1 )

ライセンス: Link先を確認
Hejie Cui and Wei Dai and Yanqiao Zhu and Xuan Kan and Antonio Aodong Chen Gu and Joshua Lukemire, Liang Zhan, Lifang He, Ying Guo, Carl Yang(参考訳) 構造的または機能的接続を用いた人間の脳のコネクトームのマッピングは、神経画像解析の最も広く普及しているパラダイムの1つとなっている。 近年、幾何学的深層学習を動機とするグラフニューラルネットワーク(GNN)が、複雑なネットワークデータモデリングの確立により、広く関心を集めている。 他の分野では確立された性能にもかかわらず、脳ネットワーク分析に有効なGNNを設計する方法に関する体系的な研究はまだ行われていない。 このギャップを埋めるため、GNNによる脳ネットワーク分析のベンチマークであるBrainGBを提示する。 BrainGBはプロセスを標準化する 1)機能的・構造的ニューロイメージングと脳ネットワーク構築パイプラインの要約 2) GNN設計の実装をモジュール化する。 我々はコホートやモダリティにまたがるデータセットに関する広範な実験を行い、脳ネットワーク上で有効なGNN設計のための一般的なレシピセットを推奨する。 gnnベースのブレインネットワーク解析のオープンかつ再現可能な研究をサポートするために、braingbのwebサイトをhttps://brainnet.us/ でホストし、モデル、チュートリアル、サンプル、およびアウトオブボックスのpythonパッケージも提供しています。 この研究が有用な実証的証拠を提供し、この新奇で有望な方向性で将来の研究への洞察を提供することを期待している。

Mapping the connectome of the human brain using structural or functional connectivity has become one of the most pervasive paradigms for neuroimaging analysis. Recently, Graph Neural Networks (GNNs) motivated from geometric deep learning have attracted broad interest due to their established power for modeling complex networked data. Despite their established performance in other fields, there has not yet been a systematic study of how to design effective GNNs for brain network analysis. To bridge this gap, we present BrainGB, a benchmark for brain network analysis with GNNs. BrainGB standardizes the process by 1) summarizing brain network construction pipelines for both functional and structural neuroimaging modalities and 2) modularizing the implementation of GNN designs. We conduct extensive experiments on datasets across cohorts and modalities and recommend a set of general recipes for effective GNN designs on brain networks. To support open and reproducible research on GNN-based brain network analysis, we also host the BrainGB website at https:// brainnet.us/ with models, tutorials, examples, as well as an out-of-box Python package. We hope that this work will provide useful empirical evidence and offer insights for future research in this novel and promising direction.
翻訳日:2022-04-17 07:28:54 公開日:2022-03-17
# (参考訳) 情報化の新しい科学に向けて [全文訳有]

Towards a New Science of Disinformation ( http://arxiv.org/abs/2204.01489v1 )

ライセンス: CC BY 4.0
Claudio S. Pinhanez, German H. Flores, Marisa A. Vasconcelos, Mu Qiao, Nick Linck, Rog\'erio de Paula, Yuya J. Ong(参考訳) 深層学習が生み出すフェイクオーディオ、写真、ビデオ(ディープフェイク)が個人生活や社会生活にもたらす危険な影響をどう解決するか。 我々は、安価なディープフェイク技術が利用可能になったことで、人々が異なるチャンネルを通じて特定のパーソナライズされた偽情報を受信する第二波が生まれることを予測している。 フェイクメディアは今後のサイバーセキュリティ問題と見なされる必要があり、その拡散との戦いから、ユーザーが公開する各メディアの正確性を検証する、挑戦し、議論する手段を持つ予防と治療のフレームワークに移行する必要がある、と私たちは主張している。 この枠組みの背景にある技術を開発するためには,コミュニケーションのプロセスと偽コンテンツの消費に関する理論的枠組みを創出する,新たな情報科学の必要性が示唆された。 この研究課題に直面する重要な科学的・技術的課題は、フェイクメディアの生成と検出、議論の探究と構築、ユーザーを効果的に予防と治療プロセスに結びつける方法についての最先端技術にリストアップされ、議論されている。

How can we best address the dangerous impact that deep learning-generated fake audios, photographs, and videos (a.k.a. deepfakes) may have in personal and societal life? We foresee that the availability of cheap deepfake technology will create a second wave of disinformation where people will receive specific, personalized disinformation through different channels, making the current approaches to fight disinformation obsolete. We argue that fake media has to be seen as an upcoming cybersecurity problem, and we have to shift from combating its spread to a prevention and cure framework where users have available ways to verify, challenge, and argue against the veracity of each piece of media they are exposed to. To create the technologies behind this framework, we propose that a new Science of Disinformation is needed, one which creates a theoretical framework both for the processes of communication and consumption of false content. Key scientific and technological challenges facing this research agenda are listed and discussed in the light of state-of-art technologies for fake media generation and detection, argument finding and construction, and how to effectively engage users in the prevention and cure processes.
翻訳日:2022-04-10 14:02:29 公開日:2022-03-17
# (参考訳) 生体認証システムのための高速応答および高容量カラー2dコードへの顔画像の暗号化と符号化

Encryption and encoding of facial images into quick response and high capacity color 2d code for biometric passport security system ( http://arxiv.org/abs/2203.15738v1 )

ライセンス: CC BY-SA 4.0
Ziaul Haque Choudhury(参考訳) 本論文では, qrコードに基づく生体認証法にエンコードされた, マルチモーダル生体認証, セキュアな生体認証データおよび暗号化生体認証法を提案する。 まず、拡張プロファイル-局所バイナリパターン(EP-LBP)、カニーエッジ検出器、画像ファイル情報(IMFINFO)プロセスによるスケール不変特徴変換(SIFT)アルゴリズムを用いて、顔のマークサイズ認識を行う。 第2に、能動形状モデル(ASM)を能動外観モデル(AAM)に用いて手の動きを追従し、手形状特性を検証・識別するために注入することにより、手形状認識を実現する。 第3に、公開アクセス可能な暗号化された生体認証パスポート情報をQRコードに符号化し、電子パスポートに挿入して保護を改善する。 さらに、Advanced Encryption Standard(AES)とSecure Hash Algorithm(SHA)256アルゴリズムを適用して、個人情報と生体データを暗号化する。 生体認証パスポートセキュリティシステムを強化します。

In this thesis, a multimodal biometric, secure encrypted data and encrypted biometric encoded into the QR code-based biometric-passport authentication method is proposed for national security applications. Firstly, using the Extended Profile - Local Binary Patterns (EP-LBP), a Canny edge detector, and the Scale Invariant Feature Transform (SIFT) algorithm with Image File Information (IMFINFO) process, the facial mark size recognition is initially achieved. Secondly, by using the Active Shape Model (ASM) into Active Appearance Model (AAM) to follow the hand and infusion the hand geometry characteristics for verification and identification, hand geometry recognition is achieved. Thirdly, the encrypted biometric passport information that is publicly accessible is encoded into the QR code and inserted into the electronic passport to improve protection. Further, Personal information and biometric data are encrypted by applying the Advanced Encryption Standard (AES) and the Secure Hash Algorithm (SHA) 256 algorithm. It will enhance the biometric passport security system.
翻訳日:2022-04-03 19:27:05 公開日:2022-03-17
# (参考訳) Deouple-and-Sample:タスク非依存データリリースにおける機密情報の保護 [全文訳有]

Decouple-and-Sample: Protecting sensitive information in task agnostic data release ( http://arxiv.org/abs/2203.13204v1 )

ライセンス: CC BY 4.0
Abhishek Singh, Ethan Garza, Ayush Chopra, Praneeth Vepakomma, Vivek Sharma, Ramesh Raskar(参考訳) 安全かつタスクに依存しないデータリリースのためのフレームワークであるsaitizerを提案する。 データセットのリリースはコンピュータビジョンのさまざまなアプリケーションに大きな影響を与え続けているが、その影響は主に、プライバシの懸念によってデータ共有が阻害されない場合に実現されている。 2段階のプロセスでデータセットを衛生化することで、これらの懸念を緩和します。 まず、生データをセンシティブかつ非センシティブな潜在表現に分解するグローバルデカップリングステージを導入する。 第2に,局所的なサンプリングステージを設計して,差分プライバシーを持つ機密情報を生成し,非敏感な潜在機能とマージして,プライバシを維持しながら有用な表現を作成する。 この新しく形成された潜伏情報は、匿名化された機密情報を持つ元のデータセットのタスクに依存しない表現である。 ほとんどのアルゴリズムはタスクに依存した方法でデータを衛生化するが、いくつかのタスクに依存しない衛生技術は機密情報を検閲することでデータを衛生化する。 本研究では,機密情報をプライベートに合成できれば,より優れたプライバシー利用トレードオフが達成できることを示す。 既存のベンチマークタスクで最先端のベースラインを上回り,既存の手法では不可能であるタスクを実証することにより,サニタイザの有効性を検証する。

We propose sanitizer, a framework for secure and task-agnostic data release. While releasing datasets continues to make a big impact in various applications of computer vision, its impact is mostly realized when data sharing is not inhibited by privacy concerns. We alleviate these concerns by sanitizing datasets in a two-stage process. First, we introduce a global decoupling stage for decomposing raw data into sensitive and non-sensitive latent representations. Secondly, we design a local sampling stage to synthetically generate sensitive information with differential privacy and merge it with non-sensitive latent features to create a useful representation while preserving the privacy. This newly formed latent information is a task-agnostic representation of the original dataset with anonymized sensitive information. While most algorithms sanitize data in a task-dependent manner, a few task-agnostic sanitization techniques sanitize data by censoring sensitive information. In this work, we show that a better privacy-utility trade-off is achieved if sensitive information can be synthesized privately. We validate the effectiveness of the sanitizer by outperforming state-of-the-art baselines on the existing benchmark tasks and demonstrating tasks that are not possible using existing techniques.
翻訳日:2022-03-27 07:11:27 公開日:2022-03-17
# (参考訳) ラベル条件付きセグメンテーション [全文訳有]

Label conditioned segmentation ( http://arxiv.org/abs/2203.10091v1 )

ライセンス: CC BY 4.0
Tianyu Ma, Benjamin C. Lee, Mert R. Sabuncu(参考訳) セマンティックセグメンテーションはコンピュータビジョンにおいて重要なタスクであり、畳み込みニューラルネットワーク(CNN)にしばしば取り組まれる。 cnnは、画像のペアと対応する地対セグメンテーションラベルのトレーニングを通じてピクセルレベルの予測を生成する。 複数のクラスを持つセグメンテーションタスクに対して、標準的なアプローチは、各チャネルが1つのクラスを表すマルチチャネル確率セグメンテーションマップを計算するネットワークを使用することである。 画像グリッドのサイズ(例えば3Dボリュームの場合)やラベルの数が比較的大きいアプリケーションでは、標準(ベースライン)アプローチは計算資源にとって違法に高価になる可能性がある。 本稿では,この課題に対処するための簡易かつ効果的な手法を提案する。 提案手法では、セグメンテーションネットワークは、ネットワークの出力クラスを決定する単一のクラスラベル上で条件付けされながら、単一チャネル出力を生成する。 label conditioned segmentation(lcs)と呼ばれるこの手法は,ベースラインアプローチでは実現不可能な,非常に多数のクラスでイメージをセグメンテーションするために使用できる。 また, ラベル条件付けにより, パラメータ効率により, 特定のバックボーンアーキテクチャの精度が向上することが実験で実証された。 最後に, 実験結果から, LCSモデルでは, トレーニング中に粗いラベルしか得られなかった場合に, 未確認の細粒度ラベルを生成できることを示した。 https://github.com/t ym002/Label-conditio ned-segmentation

Semantic segmentation is an important task in computer vision that is often tackled with convolutional neural networks (CNNs). A CNN learns to produce pixel-level predictions through training on pairs of images and their corresponding ground-truth segmentation labels. For segmentation tasks with multiple classes, the standard approach is to use a network that computes a multi-channel probabilistic segmentation map, with each channel representing one class. In applications where the image grid size (e.g., when it is a 3D volume) and/or the number of labels is relatively large, the standard (baseline) approach can become prohibitively expensive for our computational resources. In this paper, we propose a simple yet effective method to address this challenge. In our approach, the segmentation network produces a single-channel output, while being conditioned on a single class label, which determines the output class of the network. Our method, called label conditioned segmentation (LCS), can be used to segment images with a very large number of classes, which might be infeasible for the baseline approach. We also demonstrate in the experiments that label conditioning can improve the accuracy of a given backbone architecture, likely, thanks to its parameter efficiency. Finally, as we show in our results, an LCS model can produce previously unseen fine-grained labels during inference time, when only coarse labels were available during training. We provide all of our code here: https://github.com/t ym002/Label-conditio ned-segmentation
翻訳日:2022-03-27 06:50:48 公開日:2022-03-17
# GAM(L)A: 解釈可能な機械学習のための計量モデル

GAM(L)A: An econometric model for interpretable Machine Learning ( http://arxiv.org/abs/2203.11691v1 )

ライセンス: Link先を確認
Emmanuel Flachaire, Gilles Hacheme, Sullivan Hu\'e and S\'ebastien Laurent(参考訳) その高い予測性能にもかかわらず、ランダムフォレストや勾配ブースティングは、しばしばブラックボックスや解釈不能なモデルと見なされ、実践者や規制当局から懸念を集めている。 代替として本論文では,本質的に解釈可能な部分線形モデルを提案する。 具体的には,GAM-lasso (GAMLA) とGAMA-autometrics (GAMA) を略して紹介する。 GAM(L)Aはパラメトリック関数と非パラメトリック関数を組み合わせて、依存変数と説明変数の間の線形性や非線形性を正確に捉える。 推定は二重残差法に基づく2段階の手順に依拠する。 本稿では,GAM(L)Aの回帰と分類問題に対する予測性能と解釈可能性について述べる。 その結果, GAM(L)Aは2次, 立方および相互作用効果で増強されたパラメトリックモデルより優れていた。 また,gam(l)aの性能は,ランダム林や勾配ブースティングと大きく異なるものではないことが示唆された。

Despite their high predictive performance, random forest and gradient boosting are often considered as black boxes or uninterpretable models which has raised concerns from practitioners and regulators. As an alternative, we propose in this paper to use partial linear models that are inherently interpretable. Specifically, this article introduces GAM-lasso (GAMLA) and GAM-autometrics (GAMA), denoted as GAM(L)A in short. GAM(L)A combines parametric and non-parametric functions to accurately capture linearities and non-linearities prevailing between dependent and explanatory variables, and a variable selection procedure to control for overfitting issues. Estimation relies on a two-step procedure building upon the double residual method. We illustrate the predictive performance and interpretability of GAM(L)A on a regression and a classification problem. The results show that GAM(L)A outperforms parametric models augmented by quadratic, cubic and interaction effects. Moreover, the results also suggest that the performance of GAM(L)A is not significantly different from that of random forest and gradient boosting.
翻訳日:2022-03-27 05:11:50 公開日:2022-03-17
# マルチタイプGalton-Watson林の拡散過程の新しい探索

A Novel Exploration of Diffusion Process based on Multi-types Galton-Watson Forests ( http://arxiv.org/abs/2203.11816v1 )

ライセンス: Link先を確認
Yanjiao Zhu, Qilin Li, Wanquan Liu, Chuancun Yin, Zhenlong Gao(参考訳) 拡散はグラフ上の点から点へと情報を拡散する一般的な手法である。 拡散の理論的根拠は明確ではない。 そして、多型ガルトン・ワットソン森林は、空間や他の資源の制約なしに人口増加のランダムなモデルである。 本稿では,多種多型ガルトン・ワットソン林(mgwf)を用いて,拡散過程を解釈し,両者の等価な関係を確立する。 mgwfの2相設定では、拡散過程とgoogleページランクシステムを明示的に解釈することができる。 また、反復拡散プロセスとGoogle PageRankシステムの収束挙動を改善している。 提案を実験により検証し,新たな研究指針を提示する。

Diffusion is a commonly used technique for spreading information from point to point on a graph. The rationale behind diffusion is not clear. And the multi-types Galton-Watson forest is a random model of population growth without space or any other resource constraints. In this paper, we use the degenerated multi-types Galton-Watson forest (MGWF) to interpret the diffusion process and establish an equivalent relationship between them. With the two-phase setting of the MGWF, one can interpret the diffusion process and the Google PageRank system explicitly. It also improves the convergence behaviour of the iterative diffusion process and Google PageRank system. We validate the proposal by experiment while providing new research directions.
翻訳日:2022-03-27 05:08:30 公開日:2022-03-17
# ショートテキストのトピックモデリング:bitcoinに関するツイートへの適用

Short Text Topic Modeling: Application to tweets about Bitcoin ( http://arxiv.org/abs/2203.11152v1 )

ライセンス: Link先を確認
Hugo Schnoering(参考訳) テキストの集合の意味を理解することは難しい作業である。 トピックモデルは、文書のコーパスから「トピック」を抽出することを目的とした確率モデルである。 このタスクは、コーパスがソーシャルネットワーク上の投稿のような短いテキストで構成されている場合、特に難しい。 これまでのいくつかの研究論文に続いて、この論文でbitcoinに関する一連のツイートを考察する。 本研究では,3つのトピックモデルをトレーニングし,その出力を複数のスコアで評価する。 また,抽出したトピックの具体的応用を提案する。

Understanding the semantic of a collection of texts is a challenging task. Topic models are probabilistic models that aims at extracting "topics" from a corpus of documents. This task is particularly difficult when the corpus is composed of short texts, such as posts on social networks. Following several previous research papers, we explore in this paper a set of collected tweets about bitcoin. In this work, we train three topic models and evaluate their output with several scores. We also propose a concrete application of the extracted topics.
翻訳日:2022-03-22 18:39:15 公開日:2022-03-17
# (参考訳) トップランクペア学習による信頼性の高いシグネチャの明確化 [全文訳有]

Revealing Reliable Signatures by Learning Top-Rank Pairs ( http://arxiv.org/abs/2203.09927v1 )

ライセンス: CC BY 4.0
Xiaotong Ji, Yan Zheng, Daiki Suehiro, Seiichi Uchida(参考訳) 署名検証は、重要な文書解析タスクとして、機械学習とパターン認識分野の研究者が継続的に研究している。 財務書類や法的手段の確認のような特定のシナリオでは、署名の絶対的信頼性の確保が最優先事項である。 本研究では,ライターに依存しないオフラインシグネチャ検証タスクのための「トップランクペア」を学習する新しい手法を提案する。 このスキームにより、絶対信頼できる署名の数を最大化することができる。 より正確には、トップランクのペアを学習する手法は、正のサンプルを正のサンプルを超えてプッシュすることを目的としている。 実験では,BHSig-B と BHSig-H のデータセットを評価に使用し,提案モデルでは,AUC (Area Under the Curve) と精度の両面において,圧倒的に優れたpos@top(全正の正の絶対値の割合)を達成した。

Signature verification, as a crucial practical documentation analysis task, has been continuously studied by researchers in machine learning and pattern recognition fields. In specific scenarios like confirming financial documents and legal instruments, ensuring the absolute reliability of signatures is of top priority. In this work, we proposed a new method to learn "top-rank pairs" for writer-independent offline signature verification tasks. By this scheme, it is possible to maximize the number of absolutely reliable signatures. More precisely, our method to learn top-rank pairs aims at pushing positive samples beyond negative samples, after pairing each of them with a genuine reference signature. In the experiment, BHSig-B and BHSig-H datasets are used for evaluation, on which the proposed model achieves overwhelming better pos@top (the ratio of absolute top positive samples to all of the positive samples) while showing encouraging performance on both Area Under the Curve (AUC) and accuracy.
翻訳日:2022-03-22 11:25:09 公開日:2022-03-17
# (参考訳) プライバシー保護関係を用いた知識グラフの効果的なフェデレーション学習 [全文訳有]

Efficient Federated Learning on Knowledge Graphs via Privacy-preserving Relation Embedding Aggregation ( http://arxiv.org/abs/2203.09553v1 )

ライセンス: CC BY 4.0
Kai Zhang, Yu Wang, Hongyi Wang, Lifu Huang, Carl Yang, Lichao Sun(参考訳) 知識グラフ(kgs)上の連合学習(fl)は、コンピュータビジョンや自然言語処理といった他の領域ほどよく研究されていない。 FedEは、すべてのクライアントにKGのエンティティ埋め込みを共有するFLフレームワークを最初に提案している。 しかしながら、バニラFLのモデル共有と比較して、FedEからのエンティティの埋め込みは深刻なプライバシー漏洩を引き起こす。 具体的には、既知のエンティティ埋め込みを使用して、2つのエンティティ間の特定の関係がプライベートクライアントに存在するかどうかを推測することができる。 本稿では,FedEの脆弱性を評価するために,埋め込み情報に基づいて元のデータを復元することを目的とした新たな攻撃法を提案する。 さらに,fedeにおけるプライバシー問題に取り組むために,federated-preservin g relation embedded aggregation (fedr) を用いたフェデレーション学習パラダイムを提案する。 エンティティの埋め込み共有と比較して、関係の埋め込み共有ポリシは、クエリのサイズが小さいため、通信コストを大幅に削減できる。 5種類の埋め込み学習モデルと3つのベンチマークKGデータセットを用いてFedRの評価を行う。 FedEと比較して、FedRは、リンク予測タスクにおけるプライバシーと効率の両方において、同様のユーティリティと重要な(ほぼ2倍)改善を実現している。

Federated Learning (FL) on knowledge graphs (KGs) has yet to be as well studied as other domains, such as computer vision and natural language processing. A recent study FedE first proposes an FL framework that shares entity embeddings of KGs across all clients. However, compared with model sharing in vanilla FL, entity embedding sharing from FedE would incur severe privacy leakage. Specifically, the known entity embedding can be used to infer whether a specific relation between two entities exists in a private client. In this paper, we first develop a novel attack that aims to recover the original data based on embedding information, which is further used to evaluate the vulnerabilities of FedE. Furthermore, we propose a Federated learning paradigm with privacy-preserving Relation embedding aggregation (FedR) to tackle the privacy issue in FedE. Compared to entity embedding sharing, relation embedding sharing policy can significantly reduce the communication cost due to its smaller size of queries. We conduct extensive experiments to evaluate FedR with five different embedding learning models and three benchmark KG datasets. Compared to FedE, FedR achieves similar utility and significant (nearly 2X) improvements in both privacy and efficiency on link prediction task.
翻訳日:2022-03-22 10:32:05 公開日:2022-03-17
# (参考訳) バランスウェイトに対するアウトカム推定と双対理論 [全文訳有]

Outcome Assumptions and Duality Theory for Balancing Weights ( http://arxiv.org/abs/2203.09557v1 )

ライセンス: CC BY 4.0
David Bruns-Smith and Avi Feller(参考訳) 体重推定器のバランスについて検討し, 対象個体群における行方不明個体数を推定するために, 発生源集団からの結果を重み付けする。 これらの推定器は、結果モデルについて仮定することで最悪のケースエラーを最小限にする。 本稿では,この結果仮定が2つの直接的な意味を持つことを示す。 まず、推定結果関数クラスに対して単純な凸損失で重みのバランスをとるためにミニマックス最適化問題を置き換える。 第二に、一般的な重なり合いの仮定を、より適切な量的尺度、最悪の場合の最小バイアスに置き換えることができる。 最後に,結果に対する仮定が間違っている場合,重みが頑健である条件を示す。

We study balancing weight estimators, which reweight outcomes from a source population to estimate missing outcomes in a target population. These estimators minimize the worst-case error by making an assumption about the outcome model. In this paper, we show that this outcome assumption has two immediate implications. First, we can replace the minimax optimization problem for balancing weights with a simple convex loss over the assumed outcome function class. Second, we can replace the commonly-made overlap assumption with a more appropriate quantitative measure, the minimum worst-case bias. Finally, we show conditions under which the weights remain robust when our assumptions on the outcomes are wrong.
翻訳日:2022-03-22 10:22:17 公開日:2022-03-17
# (参考訳) 強化学習によるマルチエージェント協調のための戦略的操作と破壊 [全文訳有]

Strategic Maneuver and Disruption with Reinforcement Learning Approaches for Multi-Agent Coordination ( http://arxiv.org/abs/2203.09565v1 )

ライセンス: CC BY 4.0
Derrik E. Asher, Anjon Basak, Rolando Fernandez, Piyush K. Sharma, Erin G. Zaroukian, Christopher D. Hsu, Michael R. Dorothy, Thomas Mahre, Gerardo Galindo, Luke Frerichs, John Rogers, and John Fossaceca(参考訳) 強化学習(Reinforcement Learning, RL)アプローチは、多エージェントシステム(MAS)の一部としてエージェントチーム間の協調を促進する創発的行動の解明を可能にする。 技術的に進歩する敵は友好国の利益と資源に重大なリスクをもたらす。 上級の資源だけでは、現代の複雑な環境で敵を倒すには十分ではない。 したがって、防衛戦略の一環として、親善軍はマルチドメイン作戦(mdo)のような複雑な多面的ドメインにおいて優位を得るために戦略的な操作と混乱を使わなければならない。 敵よりも優位に立つための戦略演習と破壊を行うための有望な道の1つは、将来の軍事作戦におけるMASの協調である。 本稿では,軍事的文脈における自律的戦略行動の実行と破壊に関わる課題を克服するために,RLドメインにおけるその強みと弱点を概観する。

Reinforcement learning (RL) approaches can illuminate emergent behaviors that facilitate coordination across teams of agents as part of a multi-agent system (MAS), which can provide windows of opportunity in various military tasks. Technologically advancing adversaries pose substantial risks to a friendly nation's interests and resources. Superior resources alone are not enough to defeat adversaries in modern complex environments because adversaries create standoff in multiple domains against predictable military doctrine-based maneuvers. Therefore, as part of a defense strategy, friendly forces must use strategic maneuvers and disruption to gain superiority in complex multi-faceted domains such as multi-domain operations (MDO). One promising avenue for implementing strategic maneuver and disruption to gain superiority over adversaries is through coordination of MAS in future military operations. In this paper, we present overviews of prominent works in the RL domain with their strengths and weaknesses for overcoming the challenges associated with performing autonomous strategic maneuver and disruption in military contexts.
翻訳日:2022-03-22 10:01:37 公開日:2022-03-17
# (参考訳) グラフストリームの予測を伴う三角形と四サイクル数

Triangle and Four Cycle Counting with Predictions in Graph Streams ( http://arxiv.org/abs/2203.09572v1 )

ライセンス: CC BY 4.0
Justin Y. Chen, Talya Eden, Piotr Indyk, Honghao Lin, Shyam Narayanan, Ronitt Rubinfeld, Sandeep Silwal, Tal Wagner, David P. Woodruff, Michael Zhang(参考訳) グラフデータストリームの文献で広く研究されているグラフ解析における2つの基本的な問題である,三角形の数と4サイクルを推定するための,データ駆動のワンパスストリーミングアルゴリズムを提案する。 最近(Hsu 2018)と(Jiang 2020)は、他のデータストリーム問題に機械学習技術を適用し、トレーニングされたオラクルを使用して、ストリーム要素の特定の特性を予測し、オークルを使用しない以前の"古典的"アルゴリズムを改善する。 本稿では,複数のグラフエッジストリーミングモデルにおける「重いエッジ」オラクルのパワーについて検討する。 隣接リストモデルでは、そのようなオラクルを使わずに以前の空間上界を改良した1パス三角形カウントアルゴリズムを提案する。 任意の順序モデルにおいて、従来のアルゴリズムよりも少ないパスと同じ空間複雑性を持つ三角および4サイクル推定のアルゴリズムを示し、これらの境界のいくつかが最適であることを示す。 我々は,複数のノイズモデルの下でアルゴリズムを解析し,オラクルが乱れてもアルゴリズムがよく動作することを示す。 従来のマルチパスおよびランダム順序のストリーミングアルゴリズムは、我々のアルゴリズムの特別な場合と見なすことができ、ヘビーエッジのオラクルを実装するために最初のパスまたはランダム順序を用いた。 最後に,提案手法の利点を最先端のストリーミングアルゴリズムと比較した。

We propose data-driven one-pass streaming algorithms for estimating the number of triangles and four cycles, two fundamental problems in graph analytics that are widely studied in the graph data stream literature. Recently, (Hsu 2018) and (Jiang 2020) applied machine learning techniques in other data stream problems, using a trained oracle that can predict certain properties of the stream elements to improve on prior "classical" algorithms that did not use oracles. In this paper, we explore the power of a "heavy edge" oracle in multiple graph edge streaming models. In the adjacency list model, we present a one-pass triangle counting algorithm improving upon the previous space upper bounds without such an oracle. In the arbitrary order model, we present algorithms for both triangle and four cycle estimation with fewer passes and the same space complexity as in previous algorithms, and we show several of these bounds are optimal. We analyze our algorithms under several noise models, showing that the algorithms perform well even when the oracle errs. Our methodology expands upon prior work on "classical" streaming algorithms, as previous multi-pass and random order streaming algorithms can be seen as special cases of our algorithms, where the first pass or random order was used to implement the heavy edge oracle. Lastly, our experiments demonstrate advantages of the proposed method compared to state-of-the-art streaming algorithms.
翻訳日:2022-03-22 09:39:12 公開日:2022-03-17
# (参考訳) GAC:未知のソーシャルネットワークにおけるユーザインセンティブ化に向けた深層強化学習モデル [全文訳有]

GAC: A Deep Reinforcement Learning Model Toward User Incentivization in Unknown Social Networks ( http://arxiv.org/abs/2203.09578v1 )

ライセンス: CC BY 4.0
Shiqing Wu, Weihua Li, Quan Bai(参考訳) 近年,人間の注意を惹きつけるインセンティブやエンゲージメントが,多くのアプリケーションで広く採用されている。 ユーザに効果的にインセンティブを与えるため、ほとんどのインセンティブメカニズムは、好みなどの個人の属性に基づいてインセンティブ値を決定する。 このような情報が得られない場合、これらのアプローチは効果がない可能性がある。 一方、予算制限のため、インセンティブを付与できるユーザ数も制限されている。 この観点から,ユーザ間の社会的影響を利用してインセンティブの最大化を目指す。 ソーシャルネットワークの影響力のあるユーザーに直接インセンティブを与えることで、フォロワーや友人はインセンティブを少なくしたりインセンティブ無しで間接的にインセンティブを与えることができる。 しかし,2対間の影響力の強さはよく分かっていないため,ソーシャルネットワークでは事前に影響力のあるユーザを特定することは困難である。 本研究では,限られた予算で効果的なインセンティブ割当方針を発見するために,gemetry actor-critic(gac)という,エンドツーエンドの強化学習ベースフレームワークを提案する。 より具体的には、提案手法は、効果的なインセンティブ割り当てポリシーを学習するための高レベルネットワーク表現から情報を抽出することができる。 提案されたGACは、ソーシャルネットワークのトポロジのみを必要とし、ユーザの属性に関する事前情報に依存しない。 提案したGACの性能を評価するために,実世界の3つのソーシャルネットワークデータセットを用いた。 実験の結果,提案手法の有効性が示された。

In recent years, providing incentives to human users for attracting their attention and engagement has been widely adopted in many applications. To effectively incentivize users, most incentive mechanisms determine incentive values based on users' individual attributes, such as preferences. These approaches could be ineffective when such information is unavailable. Meanwhile, due to the budget limitation, the number of users who can be incentivized is also restricted. In this light, we intend to utilize social influence among users to maximize the incentivization. By directly incentivizing influential users in the social network, their followers and friends could be indirectly incentivized with fewer incentives or no incentive. However, it is difficult to identify influential users beforehand in the social network, as the influence strength between each pair of users is typically unknown. In this work, we propose an end-to-end reinforcement learning-based framework, named Geometric Actor-Critic (GAC), to discover effective incentive allocation policies under limited budgets. More specifically, the proposed approach can extract information from a high-level network representation for learning effective incentive allocation policies. The proposed GAC only requires the topology of the social network and does not rely on any prior information about users' attributes. We use three real-world social network datasets to evaluate the performance of the proposed GAC. The experimental results demonstrate the effectiveness of the proposed approach.
翻訳日:2022-03-22 09:37:19 公開日:2022-03-17
# (参考訳) 文脈化言語表現を用いた時間知識埋め込みの強化 [全文訳有]

Enhanced Temporal Knowledge Embeddings with Contextualized Language Representations ( http://arxiv.org/abs/2203.09590v1 )

ライセンス: CC BY 4.0
Zhen Han, Ruotong Liao, Beiyan Liu, Yao Zhang, Zifeng Ding, Heinz K\"oppl, Hinrich Sch\"utze, Volker Tresp(参考訳) 構造化された知識と非構造化された知識を統合する新しい研究の取り組みにより、多くのアプローチが事実知識を事前訓練された言語モデル(PLM)に組み入れ、下流のNLPタスクに知識強化PLMを適用する。 しかしながら、(1) 事実知識のみを考察するが、知識グラフ (KGs) には異なるタイムスタンプの実体間の進化的関係を示す \textit{temporal facts} や \textit{events} も含んでいる。 2) PLMは時間的KG完了などの多くのKGタスクに直接適用できない。 本稿では,<textbf{e}nhancing temporal knowledge embeddeds with \textbf{co}ntextualized \textbf{la}nguage representations (ECOLA)について述べる。 本研究では,時間知識グラフに含まれる構造化知識をニュース記事から抽出した文章記述と整合させ,記述から豊富な情報を時間知識埋め込みに注入する新しい知識テキスト予測タスクを提案する。 ECOLAは、知識テキスト予測目標と時間的知識埋め込みを共同で最適化し、テキストと知識情報を最大限に活用することができる。 ECOLAのトレーニングには,テキスト記述を整列した3つの時間的KGデータセットを導入する。 時間的知識グラフ完成タスクの実験結果は,ecolaが最先端の時間的kgモデルを上回ることを示した。 提案したデータセットは、新しい時間的KGベンチマークとして機能し、構造化知識と非構造化知識の統合に関する将来の研究を促進する。

With the emerging research effort to integrate structured and unstructured knowledge, many approaches incorporate factual knowledge into pre-trained language models (PLMs) and apply the knowledge-enhanced PLMs on downstream NLP tasks. However, (1) they only consider \textit{static} factual knowledge, but knowledge graphs (KGs) also contain \textit{temporal facts} or \textit{events} indicating evolutionary relationships among entities at different timestamps. (2) PLMs cannot be directly applied to many KG tasks, such as temporal KG completion. In this paper, we focus on \textbf{e}nhancing temporal knowledge embeddings with \textbf{co}ntextualized \textbf{la}nguage representations (ECOLA). We align structured knowledge contained in temporal knowledge graphs with their textual descriptions extracted from news articles and propose a novel knowledge-text prediction task to inject the abundant information from descriptions into temporal knowledge embeddings. ECOLA jointly optimizes the knowledge-text prediction objective and the temporal knowledge embeddings, which can simultaneously take full advantage of textual and knowledge information. For training ECOLA, we introduce three temporal KG datasets with aligned textual descriptions. Experimental results on the temporal knowledge graph completion task show that ECOLA outperforms state-of-the-art temporal KG models by a large margin. The proposed datasets can serve as new temporal KG benchmarks and facilitate future research on structured and unstructured knowledge integration.
翻訳日:2022-03-22 09:16:02 公開日:2022-03-17
# (参考訳) 効率的なビデオ処理のためのデルタ蒸留 [全文訳有]

Delta Distillation for Efficient Video Processing ( http://arxiv.org/abs/2203.09594v1 )

ライセンス: CC BY 4.0
Amirhossein Habibian, Haitam Ben Yahia, Davide Abati, Efstratios Gavves, Fatih Porikli(参考訳) 本稿では,ビデオフレーム間に存在する時間的冗長性を利用して,オブジェクト検出やセマンティックセグメンテーションなどのビデオストリーム処理を高速化することを目的とする。 光フローなどの運動アライメントを用いた伝播・ワープ機能の代わりに,デルタ蒸留という新しい知識蒸留方式を提案する。 本提案では,教師の中間的特徴の変動を時間とともに学習する。 ビデオフレーム内の時間的冗長性により,これらの時間変化を効果的に蒸留できることを実証する。 推論の間、教師と生徒は共に予測を提供するために協力し、前者はキーフレーム上でのみ抽出された初期表現を提供し、後者は連続したフレームに対してデルタを反復的に推定して適用する。 さらに,エンド・ツー・エンドの学習可能なアーキテクチャ探索を含む最適な学生アーキテクチャを学ぶために,様々な設計選択を検討する。 最も効率的なものを含む、幅広いアーキテクチャに関する広範な実験により、デルタ蒸留は、ビデオにおけるセマンティックセグメンテーションとオブジェクト検出の効率のトレードオフに対して、その技術の新たな状態を設定することを示した。 最後に,副産物としてデルタ蒸留が教師モデルの時間的一貫性を向上させることを示す。

This paper aims to accelerate video stream processing, such as object detection and semantic segmentation, by leveraging the temporal redundancies that exist between video frames. Instead of propagating and warping features using motion alignment, such as optical flow, we propose a novel knowledge distillation schema coined as Delta Distillation. In our proposal, the student learns the variations in the teacher's intermediate features over time. We demonstrate that these temporal variations can be effectively distilled due to the temporal redundancies within video frames. During inference, both teacher and student cooperate for providing predictions: the former by providing initial representations extracted only on the key-frame, and the latter by iteratively estimating and applying deltas for the successive frames. Moreover, we consider various design choices to learn optimal student architectures including an end-to-end learnable architecture search. By extensive experiments on a wide range of architectures, including the most efficient ones, we demonstrate that delta distillation sets a new state of the art in terms of accuracy vs. efficiency trade-off for semantic segmentation and object detection in videos. Finally, we show that, as a by-product, delta distillation improves the temporal consistency of the teacher model.
翻訳日:2022-03-22 09:00:13 公開日:2022-03-17
# (参考訳) 無線IoTにおける帯域効率の良い分散推論のための学習フレームワーク [全文訳有]

A Learning Framework for Bandwidth-Efficient Distributed Inference in Wireless IoT ( http://arxiv.org/abs/2203.09631v1 )

ライセンス: CC BY 4.0
Mostafa Hussien, Kim Khoa Nguyen, and Mohamed Cheriet(参考訳) ワイヤレスモノのインターネット(IoT)では、センサーは通常帯域幅と電力資源が限られている。 したがって、分散環境では、各センサは、世界的決定が推測される核融合センター(FC)に送信する前に、知覚された観測を圧縮し、定量化するべきである。 既存の圧縮技術やエントロピー量子化器の多くは、復元忠実度をメートル法としてのみ考慮しており、これは圧縮をセンシング目標から切り離すことを意味する。 本研究では,データ圧縮機構とエントロピー量子化器を,特に機械消費データに対するセンシング目標と共設計すべきであると主張する。 そこで本研究では,相関センサの観測を圧縮・定量化する深層学習フレームワークを提案する。 我々の目的は、再構成忠実度を最大化する代わりに、FCにおける推定決定(すなわち知覚目標)の精度を最大化する方法でセンサ観測を圧縮することである。 従来の作業とは異なり、我々のフレームワークの広範な適用性を強調する観察分布に関する仮定は課さない。 また,各センサにおける補完的特徴の学習に焦点を絞った新しい損失関数を提案する。 その結果,他のベンチマークモデルと比較して,フレームワークの性能が優れていた。

In wireless Internet of things (IoT), the sensors usually have limited bandwidth and power resources. Therefore, in a distributed setup, each sensor should compress and quantize the sensed observations before transmitting them to a fusion center (FC) where a global decision is inferred. Most of the existing compression techniques and entropy quantizers consider only the reconstruction fidelity as a metric, which means they decouple the compression from the sensing goal. In this work, we argue that data compression mechanisms and entropy quantizers should be co-designed with the sensing goal, specifically for machine-consumed data. To this end, we propose a novel deep learning-based framework for compressing and quantizing the observations of correlated sensors. Instead of maximizing the reconstruction fidelity, our objective is to compress the sensor observations in a way that maximizes the accuracy of the inferred decision (i.e., sensing goal) at the FC. Unlike prior work, we do not impose any assumptions about the observations distribution which emphasizes the wide applicability of our framework. We also propose a novel loss function that keeps the model focused on learning complementary features at each sensor. The results show the superior performance of our framework compared to other benchmark models.
翻訳日:2022-03-22 08:42:45 公開日:2022-03-17
# (参考訳) Dim Wihl Gat Tun:Underdocumented LanguagesにおけるNLPの言語専門家の事例 [全文訳有]

Dim Wihl Gat Tun: The Case for Linguistic Expertise in NLP for Underdocumented Languages ( http://arxiv.org/abs/2203.09632v1 )

ライセンス: CC BY 4.0
Clarissa Forbes, Farhan Samir, Bruce Harold Oliver, Changbing Yang, Edith Coates, Garrett Nicolai and Miikka Silfverberg(参考訳) NLPの最近の進歩は、大量のデータセットを活用する事前訓練されたモデルによって推進され、世界の政治的・経済的超大国に大きな利益をもたらした。 技術的に未熟な言語は、そのような資源が欠如しているため残されている。 にもかかわらず、何百もの未保存言語が、言語ドキュメントの取り組みから、インターリニアグロステキスト(IGT)という形でデータソースを提供している。 IGTは、おそらくそのアノテーションは半構造化され、しばしば言語固有のものであるからである。 本稿では,言語専門知識が利用可能である場合に,IGTデータを有効活用できることを示す。 我々は特にドキュメンタリー言語学者とのコラボレーションを提唱する。 本論文は,IGTデータを利用したプロジェクト成功のロードマップを提供する。(1) 与えられたIGTデータを用いてどのNLPタスクを達成できるか,また,これらのタスクが音声コミュニティの利益をもたらすかを定義することが不可欠である。 2)NLPで一般的に使用される構造化フォーマットにデータを変換する際には,言語知識と注意が必要である。 3)タスク特化およびユーザ特化評価は,生成したツールが対象言語音声コミュニティに有効であることを確かめるのに役立つ。 本研究は,Tsimchianic Language Gitksanのための形態的再構成システムの開発を事例として述べる。

Recent progress in NLP is driven by pretrained models leveraging massive datasets and has predominantly benefited the world's political and economic superpowers. Technologically underserved languages are left behind because they lack such resources. Hundreds of underserved languages, nevertheless, have available data sources in the form of interlinear glossed text (IGT) from language documentation efforts. IGT remains underutilized in NLP work, perhaps because its annotations are only semi-structured and often language-specific. With this paper, we make the case that IGT data can be leveraged successfully provided that target language expertise is available. We specifically advocate for collaboration with documentary linguists. Our paper provides a roadmap for successful projects utilizing IGT data: (1) It is essential to define which NLP tasks can be accomplished with the given IGT data and how these will benefit the speech community. (2) Great care and target language expertise is required when converting the data into structured formats commonly employed in NLP. (3) Task-specific and user-specific evaluation can help to ascertain that the tools which are created benefit the target language speech community. We illustrate each step through a case study on developing a morphological reinflection system for the Tsimchianic language Gitksan.
翻訳日:2022-03-22 08:27:37 公開日:2022-03-17
# (参考訳) 効果的な2段階計画のための関係状態と行動抽象化の創出 [全文訳有]

Inventing Relational State and Action Abstractions for Effective and Efficient Bilevel Planning ( http://arxiv.org/abs/2203.09634v1 )

ライセンス: CC BY 4.0
Tom Silver, Rohan Chitnis, Nishanth Kumar, Willie McClinton, Tomas Lozano-Perez, Leslie Pack Kaelbling, Joshua Tenenbaum(参考訳) 連続状態と作用空間における効率的な計画法は、遷移モデルが決定論的で知られている場合でも、基本的に難しい。 この課題を緩和する1つの方法は、抽象的な空間における計画の指針として、抽象的な計画の高レベルな探索が使用される、二段階的な計画を実行することである。 本稿では,実効性(重要度)と効率性(高速性)の両方に明示的に最適化された,状態と行動の抽象化を学習するための新しいフレームワークを開発する。 環境におけるタスクのデモンストレーションを考えると、データ効率のよいアプローチは、オブジェクトのアイデンティティと数値を一般化する、リレーショナルでニューロシンボリックな抽象化を学習します。 シンボリックなコンポーネントは、ai計画に見られるストリップ述語と演算子に似ており、ニューラルネットワークコンポーネントは、環境内で実行できるアクションに抽象化を洗練する。 実験では、4つのロボット計画環境にまたがって、学習した抽象概念がデモで見られたよりも長い地平線の保留タスクを迅速に解き、手作業で指定した抽象化の効率を上回ります。 また、プランナー構成が変化するにつれて、学習した抽象概念が適応し、抽象化学習手法が「タスク認識」と「プランナー認識」の両方であることを示す。 コード: https://tinyurl.com/ predicators-release

Effective and efficient planning in continuous state and action spaces is fundamentally hard, even when the transition model is deterministic and known. One way to alleviate this challenge is to perform bilevel planning with abstractions, where a high-level search for abstract plans is used to guide planning in the original transition space. In this paper, we develop a novel framework for learning state and action abstractions that are explicitly optimized for both effective (successful) and efficient (fast) bilevel planning. Given demonstrations of tasks in an environment, our data-efficient approach learns relational, neuro-symbolic abstractions that generalize over object identities and numbers. The symbolic components resemble the STRIPS predicates and operators found in AI planning, and the neural components refine the abstractions into actions that can be executed in the environment. Experimentally, we show across four robotic planning environments that our learned abstractions are able to quickly solve held-out tasks of longer horizons than were seen in the demonstrations, and can even outperform the efficiency of abstractions that we manually specified. We also find that as the planner configuration varies, the learned abstractions adapt accordingly, indicating that our abstraction learning method is both "task-aware" and "planner-aware." Code: https://tinyurl.com/ predicators-release
翻訳日:2022-03-22 08:09:57 公開日:2022-03-17
# (参考訳) 図形モデルにおける構造回復のための密度進化フレームワークによる圧縮センシングシステムの設計 [全文訳有]

Design of Compressed Sensing Systems via Density-Evolution Framework for Structure Recovery in Graphical Models ( http://arxiv.org/abs/2203.09636v1 )

ライセンス: CC BY 4.0
Muralikrishnna G. Sethuraman, Hang Zhang, Faramarz Fekri(参考訳) 観測データからベイズネットワーク(BN)の構造を学習する作業はNP-Hard問題であることが示されている。 この問題に対処する試みはいくつかあるが、これらのソリューションは特定のアプリケーションでは実用的でないかもしれない観測データに直接アクセスすることを前提としている。 本稿では,圧縮(低次元および間接)測定からガウスベイズネットワーク(gbn)の構造を復元する可能性について検討する。 本研究では,共分散行列とグラフ構造のより正確な検索を可能にするために,圧縮線形計測システムを最適化するための新しい密度進化型フレームワークを提案する。 特に、共分散行列とグラフの両方がスパースであるという仮定の下では、GBNの構造が実際に圧縮された測定結果から復元できることが示される。 数値シミュレーションにより,我々のセンシングシステムは,最大絶対誤差(mae)に対して最先端の状態を上回っており,アドホックパラメータのチューニングを必要とせず,精度とリコールに関して同等の性能を有することが示された。

It has been shown that the task of learning the structure of Bayesian networks (BN) from observational data is an NP-Hard problem. Although there have been attempts made to tackle this problem, these solutions assume direct access to the observational data which may not be practical in certain applications. In this paper, we explore the feasibility of recovering the structure of Gaussian Bayesian Network (GBN) from compressed (low dimensional and indirect) measurements. We propose a novel density-evolution based framework for optimizing compressed linear measurement systems that would, by design, allow for more accurate retrieval of the covariance matrix and thereby the graph structure. In particular, under the assumption that both the covariance matrix and the graph are sparse, we show that the structure of GBN can indeed be recovered from resulting compressed measurements. The numerical simulations show that our sensing systems outperform the state of the art with respect to Maximum absolute error (MAE) and have comparable performance with respect to precision and recall, without any need for ad-hoc parameter tuning.
翻訳日:2022-03-22 07:29:37 公開日:2022-03-17
# (参考訳) 学習ダイナミクスモデルにおける複合化予測誤差の検討 [全文訳有]

Investigating Compounding Prediction Errors in Learned Dynamics Models ( http://arxiv.org/abs/2203.09637v1 )

ライセンス: CC BY 4.0
Nathan Lambert, Kristofer Pister, Roberto Calandra(参考訳) エージェントの行動の結果を正確に予測することは、ロボット制御の計画において重要な前提条件である。 モデルベース強化学習(MBRL)は、タスクを解決するための状態-行動遷移の反復学習と予測に依存するパラダイムである。 Deep MBRLは、ニューラルネットワークを使用して、高次元状態からアクションへの各パスを予測するダイナミクスモデルを学ぶことで、一般的な候補となっている。 これらの「ワンステップ」予測は合成予測のより長い地平線(複合誤差問題と呼ばれる)で不正確になることが知られている。 MBRLにおける複合的誤り問題とデータ駆動制御の関連分野の有病率を考えると、これらの長期的誤差の原因となる特性と条件を理解することにした。 本稿では,制御問題のサブコンポーネントが長期予測誤差に及ぼす影響について検討する。システムの選択,データ収集,モデルのトレーニングなどを含む。 これらのシミュレーションおよび実世界のデータに関する詳細な定量的研究は、システムの基盤となるダイナミクスが予測誤差の形状と大きさを決定する最も強力な要因であることを示している。 複雑な予測誤差のより明確な理解から、研究者は制御に有用な「ワンステップ」以上の新しいタイプのモデルを実装できる。

Accurately predicting the consequences of agents' actions is a key prerequisite for planning in robotic control. Model-based reinforcement learning (MBRL) is one paradigm which relies on the iterative learning and prediction of state-action transitions to solve a task. Deep MBRL has become a popular candidate, using a neural network to learn a dynamics model that predicts with each pass from high-dimensional states to actions. These "one-step" predictions are known to become inaccurate over longer horizons of composed prediction - called the compounding error problem. Given the prevalence of the compounding error problem in MBRL and related fields of data-driven control, we set out to understand the properties of and conditions causing these long-horizon errors. In this paper, we explore the effects of subcomponents of a control problem on long term prediction error: including choosing a system, collecting data, and training a model. These detailed quantitative studies on simulated and real-world data show that the underlying dynamics of a system are the strongest factor determining the shape and magnitude of prediction error. Given a clearer understanding of compounding prediction error, researchers can implement new types of models beyond "one-step" that are more useful for control.
翻訳日:2022-03-22 07:14:05 公開日:2022-03-17
# (参考訳) グラフ畳み込みネットワークによる統一線とパラグラフ検出 [全文訳有]

Unified Line and Paragraph Detection by Graph Convolutional Networks ( http://arxiv.org/abs/2203.09638v1 )

ライセンス: CC BY 4.0
Shuang Liu, Renshen Wang, Michalis Raptis, Yasuhisa Fujii(参考訳) 文書中の行や段落を検出するタスクを,統一された2段階クラスタリング問題に定式化する。 単語とほぼ一致するテキスト検出ボックスのセットが与えられた場合、テキスト行はボックスの集合であり、段落はラインの集合である。 これらのクラスタは、ドキュメントのレイアウトの主要な部分を表す2レベルツリーを形成する。 グラフ畳み込みネットワークを用いて、テキスト検出ボックス間の関係を予測し、これらの予測から両方のレベルのクラスタを構築する。 実験により,この統一手法は,公開ベンチマークや実世界の画像における段落検出の最先端性を保ちながら,高効率であることを示す。

We formulate the task of detecting lines and paragraphs in a document into a unified two-level clustering problem. Given a set of text detection boxes that roughly correspond to words, a text line is a cluster of boxes and a paragraph is a cluster of lines. These clusters form a two-level tree that represents a major part of the layout of a document. We use a graph convolutional network to predict the relations between text detection boxes and then build both levels of clusters from these predictions. Experimentally, we demonstrate that the unified approach can be highly efficient while still achieving state-of-the-art quality for detecting paragraphs in public benchmarks and real-world images.
翻訳日:2022-03-22 06:49:50 公開日:2022-03-17
# (参考訳) 弱教師付きセマンティクスセグメンテーションのための局所的セマンティクスコントラストとアグリゲーション [全文訳有]

Regional Semantic Contrast and Aggregation for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2203.09653v1 )

ライセンス: CC BY 4.0
Tianfei Zhou, Meijie Zhang, Fang Zhao, Jianwu Li(参考訳) 弱いラベル付き(画像タグのみ)のデータからセマンティックセグメンテーションを学ぶことは、疎いセマンティックタグから高密度なオブジェクト領域を推測することが難しいため、難しい。 広く研究されているにもかかわらず、現在のほとんどの取り組みは、個々の画像またはイメージペアが持つ限定的な意味アノテーションから直接学習し、統合的なローカライゼーションマップを得るのに苦労している。 我々の研究は、ネットワーク学習と推論のための豊富な弱いラベルのトレーニングデータと相乗的に、豊かな意味的文脈を探索することで、新しい視点からこれを緩和する。 特に,地域意味的コントラストとアグリゲーション(RCA)を提案する。 RCAは、トレーニングデータに現れる巨大で多様なオブジェクトパターンを格納するローカルメモリバンクを備えており、データセットレベルのセマンティック構造を探索するための強力なサポートとして機能する。 特に我々が提案するのは 一 大規模な分類対象領域を対比してネットワーク学習を推進し、より総合的な対象パターン理解につながる意味的コントラスト 二 セマンティックアグリゲーションにより、メモリ内の多様な関係コンテキストを収集し、セマンティック表現を豊かにする。 このようにして、RCAは細粒度のセマンティック理解の強い能力を獲得し、最終的にはPASCAL VOC 2012とCOCO 2014という2つの人気のあるベンチマークで新しい最先端の結果を確立する。

Learning semantic segmentation from weakly-labeled (e.g., image tags only) data is challenging since it is hard to infer dense object regions from sparse semantic tags. Despite being broadly studied, most current efforts directly learn from limited semantic annotations carried by individual image or image pairs, and struggle to obtain integral localization maps. Our work alleviates this from a novel perspective, by exploring rich semantic contexts synergistically among abundant weakly-labeled training data for network learning and inference. In particular, we propose regional semantic contrast and aggregation (RCA) . RCA is equipped with a regional memory bank to store massive, diverse object patterns appearing in training data, which acts as strong support for exploration of dataset-level semantic structure. Particularly, we propose i) semantic contrast to drive network learning by contrasting massive categorical object regions, leading to a more holistic object pattern understanding, and ii) semantic aggregation to gather diverse relational contexts in the memory to enrich semantic representations. In this manner, RCA earns a strong capability of fine-grained semantic understanding, and eventually establishes new state-of-the-art results on two popular benchmarks, i.e., PASCAL VOC 2012 and COCO 2014.
翻訳日:2022-03-22 06:40:47 公開日:2022-03-17
# (参考訳) 低次学習と多項式の計量エントロピー [全文訳有]

Low-degree learning and the metric entropy of polynomials ( http://arxiv.org/abs/2203.09659v1 )

ライセンス: CC BY 4.0
Alexandros Eskenazis, Paata Ivanisvili, Lauritz Streck(参考訳) f:\{-1,1\}^n\to[-1,1]$ 任意の関数のクラスを $\mathscr{f}_{n,d}$ とする。 この論文の前半では、$\mathscr{F}_{n,d}$と$L_2$-accuracy$\vare psilon$が少なくとも$\Omega((1-\sqrt{\varepsilon})2^d\log n)$のクエリを必要とすることを証明し、このシャープネスをエスケナジスとイヴァニスヴィリの最近の上界の$n\to\infty$として確立する。 これを実現するために、$L_2$-packing number $\mathsf{M}(\mathscr{F}_{n,d},\|\cdot\|_{L_2},\varepsilon)$ of the concept class $\mathscr{F}_{n,d}$ satisfy the two-sided estimate $$c(1-\varepsilon)2^d\log n \leq \log \mathsf{M}(\mathscr{F}_{n,d},\|\cdot\|_{L_2},\varepsilon) \leq \frac{2^{Cd}\log n}{\varepsilon^4}$$$$$n for enough $n, $c, 0, $c, $0, $c, $0 を満足することを示した。 本論文の第2部では,フーリエスペクトルが少数の部分集合に集中する有界近似多項式のクラスにおけるランダム化クエリ複雑性に対する対数上界について述べる。 本研究では,与えられた次数の近似ジュンタ,急速に減衰するフーリエテール関数,所定の大きさの一定深さ回路を学習するのに必要なランダムクエリ数を新たに推定する。 最後に、多項式クラス $\mathscr{F}_{n,d}$ を学ぶのに必要なクエリ数について、クエリとランダムな例モデルでエラーのない境界を得る。

Let $\mathscr{F}_{n,d}$ be the class of all functions $f:\{-1,1\}^n\to[-1,1]$ on the $n$-dimensional discrete hypercube of degree at most $d$. In the first part of this paper, we prove that any (deterministic or randomized) algorithm which learns $\mathscr{F}_{n,d}$ with $L_2$-accuracy $\varepsilon$ requires at least $\Omega((1-\sqrt{\varepsilon})2^d\log n)$ queries for large enough $n$, thus establishing the sharpness as $n\to\infty$ of a recent upper bound of Eskenazis and Ivanisvili (2021). To do this, we show that the $L_2$-packing numbers $\mathsf{M}(\mathscr{F}_{n,d},\|\cdot\|_{L_2},\varepsilon)$ of the concept class $\mathscr{F}_{n,d}$ satisfy the two-sided estimate $$c(1-\varepsilon)2^d\log n \leq \log \mathsf{M}(\mathscr{F}_{n,d},\|\cdot\|_{L_2},\varepsilon) \leq \frac{2^{Cd}\log n}{\varepsilon^4}$$ for large enough $n$, where $c, C>0$ are universal constants. In the second part of the paper, we present a logarithmic upper bound for the randomized query complexity of classes of bounded approximate polynomials whose Fourier spectra are concentrated on few subsets. As an application, we prove new estimates for the number of random queries required to learn approximate juntas of a given degree, functions with rapidly decaying Fourier tails and constant depth circuits of given size. Finally, we obtain bounds for the number of queries required to learn the polynomial class $\mathscr{F}_{n,d}$ without error in the query and random example models.
翻訳日:2022-03-22 06:07:06 公開日:2022-03-17
# (参考訳) 適応制御のためのメタ強化学習:オフラインアプローチ [全文訳有]

Meta Reinforcement Learning for Adaptive Control: An Offline Approach ( http://arxiv.org/abs/2203.09661v1 )

ライセンス: CC BY 4.0
Daniel G. McClement, Nathan P. Lawrence, Johan U. Backstrom, Philip D. Loewen, Michael G. Forbes, R. Bhushan Gopaluni(参考訳) メタラーニング(meta-learning)は、ニューラルネットワークモデルを訓練し、新しい問題を解決するためにさまざまなデータを合成する機械学習の分野である。 プロセス制御では、多くのシステムは類似しており、よく理解されているダイナミクスを持ち、メタ学習を通じて一般化可能なコントローラを作成することは可能であることを示唆している。 本研究では,システムゲインや時間定数などのトレーニングにおいて,既知のオフライン情報を活用するメタ強化学習(meta-RL)制御戦略を定式化し,新しいシステムを完全にモデルフリーで効率的に制御する。 当社のmeta-rlエージェントは、隠れた状態変数を通じて現在のダイナミクスに"context"を蓄積するリカレント構造を持っています。 このエンドツーエンドアーキテクチャにより、エージェントはプロセスのダイナミクスの変化に自動的に適応できる。 さらに、前例のない非線形性と時間スケールを持つシステムに同じエージェントをデプロイすることができる。 ここで報告されたテストでは、メタRLエージェントは完全にオフラインで訓練されたが、新しい設定で優れた結果が得られた。 重要な設計要素は、新しい環境と対話するためのモデルフリーのポリシー構造を維持しながら、トレーニング中にオフラインでモデルベースの情報を活用する能力である。 このアプローチを説明するために,メタRLエージェントが提案する動作を比例積分制御器の利得に変化させることで,一般化された適応型閉ループチューニング戦略を実現する。 メタラーニングはサンプル効率の良いインテリジェントコントローラを構築するための有望なアプローチである。

Meta-learning is a branch of machine learning which trains neural network models to synthesize a wide variety of data in order to rapidly solve new problems. In process control, many systems have similar and well-understood dynamics, which suggests it is feasible to create a generalizable controller through meta-learning. In this work, we formulate a meta reinforcement learning (meta-RL) control strategy that takes advantage of known, offline information for training, such as the system gain or time constant, yet efficiently controls novel systems in a completely model-free fashion. Our meta-RL agent has a recurrent structure that accumulates "context" for its current dynamics through a hidden state variable. This end-to-end architecture enables the agent to automatically adapt to changes in the process dynamics. Moreover, the same agent can be deployed on systems with previously unseen nonlinearities and timescales. In tests reported here, the meta-RL agent was trained entirely offline, yet produced excellent results in novel settings. A key design element is the ability to leverage model-based information offline during training, while maintaining a model-free policy structure for interacting with novel environments. To illustrate the approach, we take the actions proposed by the meta-RL agent to be changes to gains of a proportional-integra l controller, resulting in a generalized, adaptive, closed-loop tuning strategy. Meta-learning is a promising approach for constructing sample-efficient intelligent controllers.
翻訳日:2022-03-22 05:38:02 公開日:2022-03-17
# 有限状態マシンの優先度付き可変長テストケース生成

Prioritized Variable-length Test Cases Generation for Finite State Machines ( http://arxiv.org/abs/2203.09596v1 )

ライセンス: Link先を確認
Vaclav Rechtberger, Miroslav Bures, Bestoun S. Ahmed, Youcef Belkhier, Jiri Nema, Hynek Schvach(参考訳) モデルベーステスト(MBT)は、システムアンダーテストの一部が有限状態マシン(FSM)の特性を持つ場合、テストに有効な手法である。 このトピックに関する文献の様々な戦略にもかかわらず、特別なテスト状況を扱うための作業はほとんどない。 より具体的には、(1) テストパスは fsm の定義された状態においてのみ開始および終了することができ、(2) テストケースで訪問される fsm の定義された状態と遷移のみを必要とする優先順位付け機構が必要であり、(3) テストパスは明示的な一様長ではなく所定の長さでなければならない。 本稿では,これらの要件をすべて満たしたテスト生成戦略を提案する。 これらの要件の同時結合は、実際の産業テストでは非常に実用的です。 この戦略を実装するための6種類のアルゴリズムについて述べる。 実車と防衛プロジェクトの180の課題インスタンスと人工的に生成されたFSMの混合を用いて、すべてのバリエーションを、確立されたNスイッチカバレッジ概念の修正に基づくベースライン戦略と比較する。 生成したテストパスの諸性質とFSMで定義された架空の欠陥を活性化する可能性を評価する。 提示された戦略は、ほとんどの問題構成においてベースラインを上回る。 分析された6つの変奏曲のうち、3つは、普遍的なベストパフォーマーを特定するのが難しいにもかかわらず、最良の結果を与える。 本論文では,FSMの適用状況に応じて,機能的および非機能的ソフトウェア要件のテストにも適用可能である。

Model-based Testing (MBT) is an effective approach for testing when parts of a system-under-test have the characteristics of a finite state machine (FSM). Despite various strategies in the literature on this topic, little work exists to handle special testing situations. More specifically, when concurrently: (1) the test paths can start and end only in defined states of the FSM, (2) a prioritization mechanism that requires only defined states and transitions of the FSM to be visited by test cases is required, and (3) the test paths must be in a given length range, not necessarily of explicit uniform length. This paper presents a test generation strategy that satisfies all these requirements. A concurrent combination of these requirements is highly practical for real industrial testing. Six variants of possible algorithms to implement this strategy are described. Using a mixture of 180 problem instances from real automotive and defense projects and artificially generated FSMs, all variants are compared with a baseline strategy based on an established N-switch coverage concept modification. Various properties of the generated test paths and their potential to activate fictional defects defined in FSMs are evaluated. The presented strategy outperforms the baseline in most problem configurations. Out of the six analyzed variants, three give the best results even though a universal best performer is hard to identify. Depending on the application of the FSM, the strategy and evaluation presented in this paper are applicable both in testing functional and non-functional software requirements.
翻訳日:2022-03-21 15:56:51 公開日:2022-03-17
# 方向性グラフをモデルとした有限状態マシンによるテストケース生成のためのテストカバレッジ基準の概要

Overview of Test Coverage Criteria for Test Case Generation from Finite State Machines Modelled as Directed Graphs ( http://arxiv.org/abs/2203.09604v1 )

ライセンス: Link先を確認
Vaclav Rechtberger, Miroslav Bures, Bestoun S. Ahmed(参考訳) テストカバレッジ基準は、システムアンダーテストモデルからテストケースを生成する際に、テストエンジニアにとって不可欠な概念です。 これらは、ユーザインターフェース、ミドルウェア、ソフトウェア、エレクトロニクス、IoT(Internet of Things)システムのためのバックエンドシステム部品のテストケース生成に日常的に使用される。 テストカバレッジ基準は、システムがテストされるアクションや組み合わせの数を定義し、非公式にテストセットの潜在的な「強度」を決定する。 前回の研究では、有限状態機械の一般的なテストカバレッジ基準をすべて要約し、それらの仮定、等価性、あるいは非互換性について包括的に議論した。 本研究では, 有向グラフで定義される有限状態機械について, 14種類のテストカバレッジ基準と7種類のシノニムを比較した。 結果は、ソフトウェアベースまたはIoTシステムテスト戦略を設定する上で、研究者と業界テストエンジニアに有益な概要を提供する。

Test Coverage criteria are an essential concept for test engineers when generating the test cases from a System Under Test model. They are routinely used in test case generation for user interfaces, middleware, and back-end system parts for software, electronics, or Internet of Things (IoT) systems. Test Coverage criteria define the number of actions or combinations by which a system is tested, informally determining a potential "strength" of a test set. As no previous study summarized all commonly used test coverage criteria for Finite State Machines and comprehensively discussed them regarding their subsumption, equivalence, or non-comparability, this paper provides this overview. In this study, 14 most common test coverage criteria and seven of their synonyms for Finite State Machines defined via a directed graph are summarized and compared. The results give researchers and industry testing engineers a helpful overview when setting a software-based or IoT system test strategy.
翻訳日:2022-03-21 15:56:28 公開日:2022-03-17
# DeepLSS:複合プローブのディープラーニング解析による大規模構造における破壊パラメータの退化

DeepLSS: breaking parameter degeneracies in large scale structure with deep learning analysis of combined probes ( http://arxiv.org/abs/2203.09616v1 )

ライセンス: Link先を確認
Tomasz Kacprzak and Janis Fluri(参考訳) 2-pt関数を持つ大規模構造調査の古典宇宙論解析では、パラメータ測定精度は宇宙論と天体物理学におけるいくつかの重要な縮退によって制限される。 宇宙せん断の場合、クラスタリング振幅$\sigma_8$と物質密度$\Omega_m$は、大まかに$S_8=\sigma_8(\Omega_m/0. 3)^{0.5}$の関係に従う。 逆に、$S_8$は固有銀河アライメント振幅$A_{\rm{IA}}$と高い相関を持つ。 ギャラクシークラスタリングでは、バイアス $b_g$ は $\sigma_8$ と $\omega_m$ の両方で縮退する。 さらに、IAとバイアスの赤方偏移進化は、さらなるパラメータ混乱を引き起こす可能性がある。 トモグラフィー2-ptプローブの組み合わせは、これらの縮退を部分的に持ち上げることができる。 本研究では、DeepLSSと呼ばれる弱い重力レンズと銀河クラスタリングを組み合わせたプローブの深層解析により、これらの縮退を効果的に破り、$\sigma_8$, $\Omega_m$, $A_{\rm{IA}}$, $b_g$, $r_g$, IA赤方偏移進化パラメータ$\eta_{\rm{IA}}$に対してより正確な制約が得られることを示した。 A_{\rm{IA}}$の精度はおよそ8倍に向上し、ほぼ完全にS_8$と非相関である。 Galaxy bias $b_g$は1.5倍、 stochasticity $r_g$は3倍、redshift evolution $\eta_{\rm{IA}}$と$\eta_b$は1.6倍改善される。 これらの退化を破ると、$\sigma_8$と$\Omega_m$の制約パワーが大幅に増加し、メリットの数値は15倍に向上する。 この情報ゲインの起源について,感度マップを用いて直感的な説明を行う。 これらの結果は、機械学習による宇宙論的推論に対する、完全に数値的な地図に基づく前方モデリングアプローチが、今後のLSS調査において重要な役割を果たすことを示唆している。 フルサーベイ分析のための実践的展開における視点と課題について論じる。

In classical cosmological analysis of large scale structure surveys with 2-pt functions, the parameter measurement precision is limited by several key degeneracies within the cosmology and astrophysics sectors. For cosmic shear, clustering amplitude $\sigma_8$ and matter density $\Omega_m$ roughly follow the $S_8=\sigma_8(\Omega_m/0. 3)^{0.5}$ relation. In turn, $S_8$ is highly correlated with the intrinsic galaxy alignment amplitude $A_{\rm{IA}}$. For galaxy clustering, the bias $b_g$ is degenerate with both $\sigma_8$ and $\Omega_m$, as well as the stochasticity $r_g$. Moreover, the redshift evolution of IA and bias can cause further parameter confusion. A tomographic 2-pt probe combination can partially lift these degeneracies. In this work we demonstrate that a deep learning analysis of combined probes of weak gravitational lensing and galaxy clustering, which we call DeepLSS, can effectively break these degeneracies and yield significantly more precise constraints on $\sigma_8$, $\Omega_m$, $A_{\rm{IA}}$, $b_g$, $r_g$, and IA redshift evolution parameter $\eta_{\rm{IA}}$. The most significant gains are in the IA sector: the precision of $A_{\rm{IA}}$ is increased by approximately 8x and is almost perfectly decorrelated from $S_8$. Galaxy bias $b_g$ is improved by 1.5x, stochasticity $r_g$ by 3x, and the redshift evolution $\eta_{\rm{IA}}$ and $\eta_b$ by 1.6x. Breaking these degeneracies leads to a significant gain in constraining power for $\sigma_8$ and $\Omega_m$, with the figure of merit improved by 15x. We give an intuitive explanation for the origin of this information gain using sensitivity maps. These results indicate that the fully numerical, map-based forward modeling approach to cosmological inference with machine learning may play an important role in upcoming LSS surveys. We discuss perspectives and challenges in its practical deployment for a full survey analysis.
翻訳日:2022-03-21 15:55:48 公開日:2022-03-17
# オンラインイベントストリームの解析:異常検出のための次のアクティビティの予測

The Analysis of Online Event Streams: Predicting the Next Activity for Anomaly Detection ( http://arxiv.org/abs/2203.09619v1 )

ライセンス: Link先を確認
Suhwan Lee, Xixi Lu, Hajo A. Reijers(参考訳) プロセスマイニングにおける異常検出は、プロセス実行中の異常ケースやイベントを特定することに焦点を当てる。 結果として得られた診断は、不正行為を防止し、プロセスのコンプライアンスとセキュリティを改善するための勧告を導き出すために使用される。 既存の技術のほとんどは、オフライン環境で異常なケースを検出することに重点を置いている。 しかし,潜在的な異常をタイムリーに識別し,即時対応するためには,オンラインでリアルタイムにイベントレベルの異常を検出する必要がある。 本稿では,次世代予測手法を用いて,オンラインイベント異常検出問題に取り組むことを提案する。 具体的には,次の活動の確率を予測するためのMLモデル(RFやXGBoostなど)と深部モデル(LSTMなど)の両方を用いて,予測できない事象を異常とみなす。 これらの予測異常検出手法を,オンライン環境における4つの非教師なし異常検出手法(アイソレーションフォレストやlofなど)と比較した。 本評価は,mlモデルを用いた提案手法が,従来の非教師付き手法よりも異常な事象検出に優れる一方で,深層モデルを用いた提案手法よりも優れることを示す。

Anomaly detection in process mining focuses on identifying anomalous cases or events in process executions. The resulting diagnostics are used to provide measures to prevent fraudulent behavior, as well as to derive recommendations for improving process compliance and security. Most existing techniques focus on detecting anomalous cases in an offline setting. However, to identify potential anomalies in a timely manner and take immediate countermeasures, it is necessary to detect event-level anomalies online, in real-time. In this paper, we propose to tackle the online event anomaly detection problem using next-activity prediction methods. More specifically, we investigate the use of both ML models (such as RF and XGBoost) and deep models (such as LSTM) to predict the probabilities of next-activities and consider the events predicted unlikely as anomalies. We compare these predictive anomaly detection methods to four classical unsupervised anomaly detection approaches (such as Isolation forest and LOF) in the online setting. Our evaluation shows that the proposed method using ML models tends to outperform the one using a deep model, while both methods outperform the classical unsupervised approaches in detecting anomalous events.
翻訳日:2022-03-21 15:55:04 公開日:2022-03-17
# MatchFormer: 特徴マッチングのための変換器のインターリーブ注意

MatchFormer: Interleaving Attention in Transformers for Feature Matching ( http://arxiv.org/abs/2203.09645v1 )

ライセンス: Link先を確認
Qing Wang, Jiaming Zhang, Kailun Yang, Kunyu Peng, Rainer Stiefelhagen(参考訳) 局所的特徴マッチングはサブピクセルレベルで計算集約的なタスクである。 特徴記述子と組み合わされた検出器ベースの手法は、低テクスチャシーンで苦労するが、CNNベースの手法はシーケンシャルな抽出・マッチングパイプラインを持ち、エンコーダのマッチング能力を利用しず、デコーダをオーバーバーする傾向がある。 対照的に,MatchFormerと呼ばれる新しい階層型抽出・マッチング変換器を提案する。 階層エンコーダの各ステージ内において,特徴抽出のための自己注意と特徴マッチングのための相互注意をインターリーブし,人間の直感的な抽出・マッチング方式を実現する。 このようなマッチアウェアエンコーダはオーバーロードされたデコーダを解放し、モデルを高効率にする。 さらに,階層的アーキテクチャにおけるマルチスケール機能に対する自己およびクロス・アテンションの組み合わせは,特に低テクストの屋内シーンやアウトドアトレーニングデータが少ない場合のロバスト性を向上させる。 この戦略のおかげで、MatchFormerは効率、堅牢性、精度のマルチウィンソリューションである。 従来の室内ポーズ推定法と比較して、我々の整合型MatchFormerは45%のGFLOPしか持たないが、+1.3%の精度向上と41%の速度向上を実現している。 大規模なMatchFormerは、屋内ポーズ推定(ScanNet)、屋外ポーズ推定(MegaDepth)、ホモグラフィ推定と画像マッチング(HPatch)、視覚的ローカライゼーション(InLoc)の4つの異なるベンチマークで最先端に達する。 コードはhttps://github.com/j amycheung/MatchForme r.comで公開される。

Local feature matching is a computationally intensive task at the subpixel level. While detector-based methods coupled with feature descriptors struggle in low-texture scenes, CNN-based methods with a sequential extract-to-match pipeline, fail to make use of the matching capacity of the encoder and tend to overburden the decoder for matching. In contrast, we propose a novel hierarchical extract-and-match transformer, termed as MatchFormer. Inside each stage of the hierarchical encoder, we interleave self-attention for feature extraction and cross-attention for feature matching, enabling a human-intuitive extract-and-match scheme. Such a match-aware encoder releases the overloaded decoder and makes the model highly efficient. Further, combining self- and cross-attention on multi-scale features in a hierarchical architecture improves matching robustness, particularly in low-texture indoor scenes or with less outdoor training data. Thanks to such a strategy, MatchFormer is a multi-win solution in efficiency, robustness, and precision. Compared to the previous best method in indoor pose estimation, our lite MatchFormer has only 45% GFLOPs, yet achieves a +1.3% precision gain and a 41% running speed boost. The large MatchFormer reaches state-of-the-art on four different benchmarks, including indoor pose estimation (ScanNet), outdoor pose estimation (MegaDepth), homography estimation and image matching (HPatch), and visual localization (InLoc). Code will be made publicly available at https://github.com/j amycheung/MatchForme r.
翻訳日:2022-03-21 15:51:37 公開日:2022-03-17
# semtui:表データのインタラクティブな意味豊かさのためのフレームワーク

SemTUI: a Framework for the Interactive Semantic Enrichment of Tabular Data ( http://arxiv.org/abs/2203.09521v1 )

ライセンス: Link先を確認
Marco Ripamonti, Flavio De Paoli, Matteo Palmonari (University of Milan-Bicocca)(参考訳) データセットの大規模利用は、データの世界から見知らぬ振る舞いを収集、研究し、予測するために、 \acrshort{ml} と \acrshort{ai} 技術の使用を促進する。 今日では、異なるソースからのデータ収集と統合は、主に、時間とお金の両面で、高いコストで専門家ユーザの知識を必要とする手作業である。 したがって、望ましい分析を行うためにデータセットを準備するために、さまざまなソースからデータを収集、リンクするプロセスを安価にする必要がある。 本研究では,セマンティクスの活用による富化プロセスのフレキシブル,完全,効果的化を図るため,SemTUIと呼ばれる包括的フレームワークの開発を提案する。 提案手法は,統合処理や拡張処理などの拡張処理を行うための外部サービスの迅速な統合を促進するとともに,自動強化アルゴリズムによる曖昧な結果の修正などの追加タスクをサポートするグラフィカルインターフェースをユーザに提供する。 タスク駆動のユーザ評価によって、semtuiは理解可能で、使い勝手がよく、異なるスキルや経験を持つ人を含むユーザテストで、少ない労力と時間でテーブルエンリッチメントを達成できることが証明された。

The large availability of datasets fosters the use of \acrshort{ml} and \acrshort{ai} technologies to gather insights, study trends, and predict unseen behaviours out of the world of data. Today, gathering and integrating data from different sources is mainly a manual activity that requires the knowledge of expert users at an high cost in terms of both time and money. It is, therefore, necessary to make the process of gathering and linking data from many different sources affordable to make datasets ready to perform the desired analysis. In this work, we propose the development of a comprehensive framework, named SemTUI, to make the enrichment process flexible, complete, and effective through the use of semantics. The approach is to promote fast integration of external services to perform enrichment tasks such as reconciliation and extension; and to provide users with a graphical interface to support additional tasks, such as refinement to correct ambiguous results provided by automatic enrichment algorithms. A task-driven user evaluation proved SemTUI to be understandable, usable, and capable of achieving table enrichment with little effort and time with user tests that involved people with different skills and experiences.
翻訳日:2022-03-21 15:30:03 公開日:2022-03-17
# 成功した爆撃機のエージェントの開発

Developing a Successful Bomberman Agent ( http://arxiv.org/abs/2203.09608v1 )

ライセンス: Link先を確認
Dominik Kowalczyk, Jakub Kowalski, Hubert Obrzut, Micha{\l} Maras, Szymon Kosakowski, Rados{\l}aw Miernik(参考訳) 本稿では,CodinGameプラットフォーム上で公開された2-4プレーヤー,フル情報,Bomberman変種をうまく演奏するためのAIアプローチについて検討する。 我々は,モンテカルロ木探索,ローリング水平展開,ビーム探索の3つの探索アルゴリズムの挙動を比較した。 本稿では,探索,対戦予測,ゲーム状態評価,ゲームエンジンエンコーディングに関するエージェントの強度向上に寄与する各種機能拡張を提案する。 我々のトップエージェントの変種は、シミュレーションに基づく生存率推定に基づいて、低レベルビットベースの状態表現と評価関数を重畳したビームサーチに基づいている。 これはcodingame arenaに提出された2300のaiエージェントの中でトップワンのポジションに達した。

In this paper, we study AI approaches to successfully play a 2-4 players, full information, Bomberman variant published on the CodinGame platform. We compare the behavior of three search algorithms: Monte Carlo Tree Search, Rolling Horizon Evolution, and Beam Search. We present various enhancements leading to improve the agents' strength that concern search, opponent prediction, game state evaluation, and game engine encoding. Our top agent variant is based on a Beam Search with low-level bit-based state representation and evaluation function heavy relying on pruning unpromising states based on simulation-based estimation of survival. It reached the top one position among the 2,300 AI agents submitted on the CodinGame arena.
翻訳日:2022-03-21 15:29:40 公開日:2022-03-17
# ロボット音声合成:インタラクション,シナリオ,倫理の展望

Robotic Speech Synthesis: Perspectives on Interactions, Scenarios, and Ethics ( http://arxiv.org/abs/2203.09599v1 )

ライセンス: Link先を確認
Yuanchao Li, Catherine Lai(参考訳) 近年,医療やインタビューなど特定のタスクを遂行するための対話型ロボットの実現可能性について,多くの研究がなされている。 ロボットの声を合成して異なる状況のニーズを満たすには、どうすればよいのか? 本稿では,この問題を3つの視点から論じる。 1)非言語・対話指向音声信号、特にバックチャネルの合成の難しさ 2) ロボット音声合成のシナリオ分類 3) ロボット音声の感情とアイデンティティに関する倫理的課題 我々は,人間-ロボットインタラクション研究者の注意を引いて,より優れた対話型ロボットを設計することを目的として,関連文献と先行研究の成果を提示する。

In recent years, many works have investigated the feasibility of conversational robots for performing specific tasks, such as healthcare and interview. Along with this development comes a practical issue: how should we synthesize robotic voices to meet the needs of different situations? In this paper, we discuss this issue from three perspectives: 1) the difficulties of synthesizing non-verbal and interaction-oriented speech signals, particularly backchannels; 2) the scenario classification for robotic voice synthesis; 3) the ethical issues regarding the design of robot voice for its emotion and identity. We present the findings of relevant literature and our prior work, trying to bring the attention of human-robot interaction researchers to design better conversational robots in the future.
翻訳日:2022-03-21 15:26:54 公開日:2022-03-17
# 歩行エネルギー画像を用いた歩行解析

Human Gait Analysis using Gait Energy Image ( http://arxiv.org/abs/2203.09549v1 )

ライセンス: Link先を確認
Sagor Chandro Bakchy, Md. Rabiul Islam, M. Rasel Mahmud, Faisal Imran(参考訳) 歩行認識は、非邪魔な学習方法を持つセキュリティベースの目的に使用できる、人間の生体計測の最新の技術の1つである。 他のバイオメトリクスの歩行分析と比較すると、いくつかの特別なセキュリティ機能がある。 バイオメトリック技術のほとんどは、認識にシーケンシャルなテンプレートベースのコンポーネント分析を使用する。 これらの手法と比較して,特徴歩行エネルギー画像(GEI)を用いた歩行識別手法を開発した。 geiによるgait表現は、各画像のすべての情報を1回の歩行サイクルで保持し、少ないストレージと低い処理速度を必要とする。 1つの画像だけでGEIの特徴認識プロセスに必要な情報を格納できるため、歩行認識の他の機能よりも非常に容易である。 歩行認識には、視角の変化、歩行速度、衣服、搬送荷重など、認識プロセスにいくつかの制限がある。 本稿では,認識性能と,各フレームをサイクルで処理する必要があるテンプレートベースの特徴抽出を比較した。 GEIはサイクル内のすべてのフレームについて比較的すべての情報を提供し、その結果、歩行分析の他の機能よりも優れたパフォーマンスが得られる。

Gait recognition is one of the most recent emerging techniques of human biometric which can be used for security based purposes having unobtrusive learning method. In comparison with other bio-metrics gait analysis has some special security features. Most of the biometric technique uses sequential template based component analysis for recognition. Comparing with those methods, we proposed a developed technique for gait identification using the feature Gait Energy Image (GEI). GEI representation of gait contains all information of each image in one gait cycle and requires less storage and low processing speed. As only one image is enough to store the necessary information in GEI feature recognition process is very easier than any other feature for gait recognition. Gait recognition has some limitations in recognition process like viewing angle variation, walking speed, clothes, carrying load etc. Our proposed method in the paper compares the recognition performance with template based feature extraction which needs to process each frame in the cycle. We use GEI which gives relatively all information about all the frames in the cycle and results in better performance than other feature of gait analysis.
翻訳日:2022-03-21 15:15:25 公開日:2022-03-17
# 多相性に基づく複数ショットセグメンテーションのためのハイパーリレーションネットワーク

Multi-similarity based Hyperrelation Network for few-shot segmentation ( http://arxiv.org/abs/2203.09550v1 )

ライセンス: Link先を確認
Xiangwen Shi, Shaobing Zhang, Miao Cheng, Lian He, Zhe Cui, Xianghong Tang(参考訳) 少数ショットのセマンティクスセグメンテーションは、いくつかの注釈付き例だけを監督として、未発見のカテゴリのオブジェクト領域を認識することを目的としている。 少数ショットセグメンテーションの鍵は、サポートとクエリイメージの間の堅牢なセマンティックな関係を確立し、過度な適合を防ぐことである。 本稿では,mshnet (multi- similarity hyperrelation network) を用いて,単発意味セグメンテーション問題に対処する手法を提案する。 MSHNetでは,コサイン類似性とともに,サポート画像とクエリ画像の間に強い意味的関係を確立できる新しい生成プロトタイプ類似性(GPS)を提案する。 グローバル特徴に基づく局所的に生成されたプロトタイプ類似度は、局所特徴に基づくグローバルコサイン類似度に論理的に相補的であり、この2つの類似度を同時に使用することにより、クエリ画像とサポート画像との関係をより包括的に表現することができる。 さらに,マルチレイヤー,マルチショット,マルチ相似ハイパーリレーショナル機能を効率的にマージするために,mshnetの対称マージブロック(smb)を提案する。 MSHNetは、特定のカテゴリ機能ではなく、類似性に基づいて構築されており、より一般的な統一を実現し、オーバーフィッティングを効果的に削減することができる。 Pascal-5iとCOCO-20iのベンチマークセマンティックセマンティクスデータセットでは、MSHNetは1ショットと5ショットのセマンティクスセマンティクスセマンティクスタスクで新しい最先端のパフォーマンスを達成する。

Few-shot semantic segmentation aims at recognizing the object regions of unseen categories with only a few annotated examples as supervision. The key to few-shot segmentation is to establish a robust semantic relationship between the support and query images and to prevent overfitting. In this paper, we propose an effective Multi-similarity Hyperrelation Network (MSHNet) to tackle the few-shot semantic segmentation problem. In MSHNet, we propose a new Generative Prototype Similarity (GPS), which together with cosine similarity can establish a strong semantic relation between the support and query images. The locally generated prototype similarity based on global feature is logically complementary to the global cosine similarity based on local feature, and the relationship between the query image and the supported image can be expressed more comprehensively by using the two similarities simultaneously. In addition, we propose a Symmetric Merging Block (SMB) in MSHNet to efficiently merge multi-layer, multi-shot and multi-similarity hyperrelational features. MSHNet is built on the basis of similarity rather than specific category features, which can achieve more general unity and effectively reduce overfitting. On two benchmark semantic segmentation datasets Pascal-5i and COCO-20i, MSHNet achieves new state-of-the-art performances on 1-shot and 5-shot semantic segmentation tasks.
翻訳日:2022-03-21 15:15:10 公開日:2022-03-17
# CoGS: スケッチとスタイルによる制御可能な生成と検索

CoGS: Controllable Generation and Search from Sketch and Style ( http://arxiv.org/abs/2203.09554v1 )

ライセンス: Link先を確認
Cusuh Ham, Gemma Canet Tarres, Tu Bui, James Hays, Zhe Lin, John Collomosse(参考訳) 画像のスタイル条件付きスケッチ駆動合成のための新しい手法であるCoGSを提案する。 CoGSは、与えられたスケッチオブジェクトに対する多様な外観可能性の探索を可能にし、構造と出力の外観を分離した制御を可能にする。 インプットスケッチと、変圧器ベースのスケッチおよびスタイルエンコーダに対する模範的な「スタイル」条件画像を介して、オブジェクト構造と外観の粗粒度制御を可能とし、離散コードブック表現を生成する。 コードブック表現を計量空間にマッピングし、ベクトル量子化GANデコーダ(VQGAN)を用いて画像を生成する前に、与えられた画像に対する複数の合成オプション間の選択と補間をきめ細かく制御する。 これにより、検索コーパスにおける類似した結果と組み合わせて、よりユーザの意図に合致した画像を生成することができる初期合成を実行するために、スケッチとスタイルペアが使用できるように、検索と合成のタスクを統一する。 新たに作成されたpseudosketchesデータセットの125のオブジェクトクラスでトレーニングされた我々のモデルは、セマンティックコンテンツと外観スタイルを多種多様に生成できることを示した。

We present CoGS, a novel method for the style-conditioned, sketch-driven synthesis of images. CoGS enables exploration of diverse appearance possibilities for a given sketched object, enabling decoupled control over the structure and the appearance of the output. Coarse-grained control over object structure and appearance are enabled via an input sketch and an exemplar "style" conditioning image to a transformer-based sketch and style encoder to generate a discrete codebook representation. We map the codebook representation into a metric space, enabling fine-grained control over selection and interpolation between multiple synthesis options for a given image before generating the image via a vector quantized GAN (VQGAN) decoder. Our framework thereby unifies search and synthesis tasks, in that a sketch and style pair may be used to run an initial synthesis which may be refined via combination with similar results in a search corpus to produce an image more closely matching the user's intent. We show that our model, trained on the 125 object classes of our newly created Pseudosketches dataset, is capable of producing a diverse gamut of semantic content and appearance styles.
翻訳日:2022-03-21 15:14:43 公開日:2022-03-17
# エンドツーエンド検索のためのカスケード変換器

Cascade Transformers for End-to-End Person Search ( http://arxiv.org/abs/2203.09642v1 )

ライセンス: Link先を確認
Rui Yu, Dawei Du, Rodney LaLonde, Daniel Davila, Christopher Funk, Anthony Hoogs, Brian Clipp(参考訳) 人物探索の目的は、大規模な変動、ポーズ/ビューポイントの変化、オクルージョンによって非常に困難なシーンイメージのギャラリーセットから対象人物をローカライズすることである。 本稿では、エンドツーエンドの人物検索のためのカスケード付加注意変換器(COAT)を提案する。 我々の3段階のカスケードデザインは、第1段階の人物検出に焦点を合わせ、第2段階の人物検出と再識別の表現を段階的に洗練する。 各段階で、隠蔽された注意変換器は、結合しきい値よりも密接な交叉を施し、ネットワークは粗いポーズ/スケール不変の特徴を学習せざるを得ない。 一方,個人のトークンを他人や背景と区別するために,各検出者の集中度を算出した。 このようにして、トークンレベルでの利害関係者を含む他のオブジェクトの効果をシミュレートする。 総合的な実験により,本手法の利点を2つのベンチマークデータセットで実証する。

The goal of person search is to localize a target person from a gallery set of scene images, which is extremely challenging due to large scale variations, pose/viewpoint changes, and occlusions. In this paper, we propose the Cascade Occluded Attention Transformer (COAT) for end-to-end person search. Our three-stage cascade design focuses on detecting people in the first stage, while later stages simultaneously and progressively refine the representation for person detection and re-identification. At each stage the occluded attention transformer applies tighter intersection over union thresholds, forcing the network to learn coarse-to-fine pose/scale invariant features. Meanwhile, we calculate each detection's occluded attention to differentiate a person's tokens from other people or the background. In this way, we simulate the effect of other objects occluding a person of interest at the token-level. Through comprehensive experiments, we demonstrate the benefits of our method by achieving state-of-the-art performance on two benchmark datasets.
翻訳日:2022-03-21 15:14:23 公開日:2022-03-17
# 3DAC: ポイントクラウドに対する属性圧縮の学習

3DAC: Learning Attribute Compression for Point Clouds ( http://arxiv.org/abs/2203.09931v1 )

ライセンス: Link先を確認
Guangchi Fang, Qingyong Hu, Hanyun Wang, Yiling Xu, Yulan Guo(参考訳) 大規模非構造3次元点雲の属性圧縮問題について検討する。 本稿では,異なる符号化ステップと異なる属性チャネルの関係を深く検討することにより,3dacと呼ばれる深層圧縮ネットワークを導入し,3dポイントクラウドの属性を明示的に圧縮し,ストレージ使用量を削減する。 具体的には、まず、色や反射率などの点雲特性を変換係数に変換する。 次に,属性変換と先行符号化属性に隠された情報を考慮することにより,これらの係数の確率をモデル化する深部エントロピーモデルを提案する。 最後に、推定確率を用いて、これらの変換係数を最終属性ビットストリームにさらに圧縮する。 scannetやsemantickittiなど,屋内および屋外の大規模オープンポイントクラウドデータセットで行った広範な実験により,提案する3dacの圧縮速度と再構成品質が向上した。

We study the problem of attribute compression for large-scale unstructured 3D point clouds. Through an in-depth exploration of the relationships between different encoding steps and different attribute channels, we introduce a deep compression network, termed 3DAC, to explicitly compress the attributes of 3D point clouds and reduce storage usage in this paper. Specifically, the point cloud attributes such as color and reflectance are firstly converted to transform coefficients. We then propose a deep entropy model to model the probabilities of these coefficients by considering information hidden in attribute transforms and previous encoded attributes. Finally, the estimated probabilities are used to further compress these transform coefficients to a final attributes bitstream. Extensive experiments conducted on both indoor and outdoor large-scale open point cloud datasets, including ScanNet and SemanticKITTI, demonstrated the superior compression rates and reconstruction quality of the proposed 3DAC.
翻訳日:2022-03-21 15:06:46 公開日:2022-03-17
# アラビア語の変種に対する責任ある自然言語アノテーションを目指して

Towards Responsible Natural Language Annotation for the Varieties of Arabic ( http://arxiv.org/abs/2203.09597v1 )

ライセンス: Link先を確認
A. Stevie Bergman, Mona T. Diab(参考訳) NLPモデルを構築する際には、文化的な(社会的な)言語的なニュアンスを見越して、より広範なカバレッジを目指す傾向があります。 本稿では,このようなニュアンス,特にデータセットアノテーションに注意と注意を払うとともに,そのプロセスに文化的・言語的専門知識を含める。 本稿では,多言語多方言言語のための責任データセット作成のためのプレイブックを提案する。 この研究は、ソーシャルメディアコンテンツに関するアラビア語の注釈の研究によって知らされる。

When building NLP models, there is a tendency to aim for broader coverage, often overlooking cultural and (socio)linguistic nuance. In this position paper, we make the case for care and attention to such nuances, particularly in dataset annotation, as well as the inclusion of cultural and linguistic expertise in the process. We present a playbook for responsible dataset creation for polyglossic, multidialectal languages. This work is informed by a study on Arabic annotation of social media content.
翻訳日:2022-03-21 15:02:02 公開日:2022-03-17
# 効率的な瞬時探索のための深層補強剤

Deep Reinforcement Agent for Efficient Instant Search ( http://arxiv.org/abs/2203.09644v1 )

ライセンス: Link先を確認
Ravneet Singh Arora, Sreejith Menon, Ayush Jain, Nehil Jain(参考訳) インスタント検索(Instant Search)は、検索システムがタイピング中にリアルタイムで回答を検索するパラダイムである。 インスタント検索システムのna\"ive実装は、ユーザがキーを入力する度に検索結果のバックエンドにヒットし、基礎となる検索システムに非常に高い負荷をかける。 本稿では,関連する文書の検索において,意味的に有意義なトークンを識別し,その知識を利用して即座に検索を行う手法を提案する。 我々は、検索エンジンと直接対話し、単語の重要性を予測する強化エージェントを訓練する。 提案手法は,基盤となる検索システムをブラックボックスとして扱い,より汎用的に多様なアーキテクチャに適用できる。 さらに, トリガ検索数とシステム性能のトレードオフを検討するために, 新たな評価フレームワークを提案する。 提案手法を他の直感的ベースラインと評価・比較するために,本フレームワークを利用する。 提案手法が優れたトレードオフを達成するための有効性を示す実験結果を得た。

Instant Search is a paradigm where a search system retrieves answers on the fly while typing. The na\"ive implementation of an Instant Search system would hit the search back-end for results each time a user types a key, imposing a very high load on the underlying search system. In this paper, we propose to address the load issue by identifying tokens that are semantically more salient towards retrieving relevant documents and utilize this knowledge to trigger an instant search selectively. We train a reinforcement agent that interacts directly with the search engine and learns to predict the word's importance. Our proposed method treats the underlying search system as a black box and is more universally applicable to a diverse set of architectures. Furthermore, a novel evaluation framework is presented to study the trade-off between the number of triggered searches and the system's performance. We utilize the framework to evaluate and compare the proposed reinforcement method with other intuitive baselines. Experimental results demonstrate the efficacy of the proposed method towards achieving a superior trade-off.
翻訳日:2022-03-21 15:01:55 公開日:2022-03-17
# 会員情報漏洩の定量化のための逆例の活用

Leveraging Adversarial Examples to Quantify Membership Information Leakage ( http://arxiv.org/abs/2203.09566v1 )

ライセンス: Link先を確認
Ganesh Del Grosso, Hamid Jalalzai, Georg Pichler, Catuscia Palamidessi and Pablo Piantanida(参考訳) 機械学習システムのトレーニングにパーソナルデータを使用することは、今日の機械学習における大きな課題のひとつとして、プライバシの脅威とモデルのプライバシレベルの測定が伴う。 トレーニングモデルに基づくトレーニングデータの特定は、モデルによって引き起こされるプライバシーリスクを測定する標準的な方法である。 本研究では,パターン認識モデルにおけるメンバシップ推論の問題に対処する新しい手法を開発し,敵の例から得られる情報に依存する。 提案する戦略は、敵の例を作るのに必要な摂動の大きさを測定することである。 実際、この量がトレーニングデータに属する可能性を反映していると論じている。 多変量データと最先端のターゲットモデルの配列に関する広範囲な数値実験により,本手法は最先端の戦略に匹敵する性能を持つが,追加のトレーニングサンプルは必要としないことを示した。

The use of personal data for training machine learning systems comes with a privacy threat and measuring the level of privacy of a model is one of the major challenges in machine learning today. Identifying training data based on a trained model is a standard way of measuring the privacy risks induced by the model. We develop a novel approach to address the problem of membership inference in pattern recognition models, relying on information provided by adversarial examples. The strategy we propose consists of measuring the magnitude of a perturbation necessary to build an adversarial example. Indeed, we argue that this quantity reflects the likelihood of belonging to the training data. Extensive numerical experiments on multivariate data and an array of state-of-the-art target models show that our method performs comparable or even outperforms state-of-the-art strategies, but without requiring any additional training samples.
翻訳日:2022-03-21 15:01:38 公開日:2022-03-17
# ジェネレーティブ・ディバイサル・ネットワークを用いた地質相の非表現率の生成

Generating unrepresented proportions of geological facies using Generative Adversarial Networks ( http://arxiv.org/abs/2203.09639v1 )

ライセンス: Link先を確認
Alhasan Abdellatif, Ahmed H. Elsheikh, Gavin Graham, Daniel Busby, Philippe Berthet(参考訳) 本研究では,地質データセットにおける相の補間と外挿におけるGAN(Generative Adversarial Networks)の能力について検討する。 未表現(つまり欠落)の比率を持つ新しい生成された実現は、同じ元のデータ分布に属すると仮定される。 具体的には,条件付きgansモデルの設計を行い,学習セットにない新しい比率に向けて生成したfaciesを誘導する。 本研究は,様々なトレーニング設定とモデルアーキテクチャに関する調査を含む。 また,欠落サンプルの生成を改善するための新しい条件付けルーチンを考案した。 両相・多重相の画像に対する数値実験は, 良好な地質学的整合性を示し, 対象条件と強い相関を示した。

In this work, we investigate the capacity of Generative Adversarial Networks (GANs) in interpolating and extrapolating facies proportions in a geological dataset. The new generated realizations with unrepresented (aka. missing) proportions are assumed to belong to the same original data distribution. Specifically, we design a conditional GANs model that can drive the generated facies toward new proportions not found in the training set. The presented study includes an investigation of various training settings and model architectures. In addition, we devised new conditioning routines for an improved generation of the missing samples. The presented numerical experiments on images of binary and multiple facies showed good geological consistency as well as strong correlation with the target conditions.
翻訳日:2022-03-21 15:00:48 公開日:2022-03-17
# マルチオブジェクト追跡におけるデータアソシエーションのためのニューラル強化信念伝達

Neural Enhanced Belief Propagation for Data Assocation in Multiobject Tracking ( http://arxiv.org/abs/2203.09948v1 )

ライセンス: Link先を確認
Mingchao Liang and Florian Meyer(参考訳) マルチオブジェクトトラッキング(mot)によって実現される状況認識技術は、自律航法や海洋科学などの分野における新しいサービスやアプリケーションを作成する。 信念伝播(BP)はベイジアンMOTの最先端の手法であるが、統計モデルと事前処理されたセンサ測定に完全に依存している。 本稿では,モデルベースおよびデータ駆動型MOTのハイブリッド手法を確立する。 提案手法は、生センサデータから得られた情報によってBPを補完し、データ関連を改善し、誤警報測定を拒否する。 nuScenes自動運転データセット上でのMOTに対するNEBP手法の性能評価を行い、最先端の参照手法より優れていることを示す。

Situation-aware technologies enabled by multiobject tracking (MOT) methods will create new services and applications in fields such as autonomous navigation and applied ocean sciences. Belief propagation (BP) is a state-of-the-art method for Bayesian MOT but fully relies on a statistical model and preprocessed sensor measurements. In this paper, we establish a hybrid method for model-based and data-driven MOT. The proposed neural enhanced belief propagation (NEBP) approach complements BP by information learned from raw sensor data with the goal to improve data association and to reject false alarm measurements. We evaluate the performance of our NEBP approach for MOT on the nuScenes autonomous driving dataset and demonstrate that it can outperform state-of-the-art reference methods.
翻訳日:2022-03-21 14:08:55 公開日:2022-03-17
# HiStruct+:階層構造情報による抽出テキスト要約の改善

HiStruct+: Improving Extractive Text Summarization with Hierarchical Structure Information ( http://arxiv.org/abs/2203.09629v1 )

ライセンス: Link先を確認
Qian Ruan, Malte Ostendorff, Georg Rehm(参考訳) トランスフォーマーベースの言語モデルは通常、テキストを線形シーケンスとして扱う。 しかし、ほとんどのテキストは固有の階層構造を有しており、テキストの一部がこの階層におけるそれらの位置を使って識別することができる。 さらに、セクションタイトルは、通常、それぞれの文の共通の話題を示す。 本稿では,プリトレーニングされたエンコーダのみのトランスフォーマー言語モデル(histruct+ model)に基づいて階層構造情報を明示的に抽出,抽出,エンコード,注入する新しい手法を提案する。 3つのデータセット(CNN/DailyMail、PubMed、arXivなど)のさまざまな実験的な設定を使用して、HiStruct+モデルは、階層構造情報が注入されないという点でのみ、強力なベースラインを総合的に上回ります。 また、データセットがより目立たない階層構造を持つほど、我々のメソッドが得る大きな改善も観察されます。 アブレーション研究は,このモデルのsota性能の主要な要因は階層的位置情報であることを示した。

Transformer-based language models usually treat texts as linear sequences. However, most texts also have an inherent hierarchical structure, i.e., parts of a text can be identified using their position in this hierarchy. In addition, section titles usually indicate the common topic of their respective sentences. We propose a novel approach to formulate, extract, encode and inject hierarchical structure information explicitly into an extractive summarization model based on a pre-trained, encoder-only Transformer language model (HiStruct+ model), which improves SOTA ROUGEs for extractive summarization on PubMed and arXiv substantially. Using various experimental settings on three datasets (i.e., CNN/DailyMail, PubMed and arXiv), our HiStruct+ model outperforms a strong baseline collectively, which differs from our model only in that the hierarchical structure information is not injected. It is also observed that the more conspicuous hierarchical structure the dataset has, the larger improvements our method gains. The ablation study demonstrates that the hierarchical position information is the main contributor to our model's SOTA performance.
翻訳日:2022-03-21 14:08:16 公開日:2022-03-17
# 微調整モデル探索におけるデータサイズの重要性について

On the Importance of Data Size in Probing Fine-tuned Models ( http://arxiv.org/abs/2203.09627v1 )

ライセンス: Link先を確認
Houman Mehrafarin, Sara Rajaee, Mohammad Taher Pilehvar(参考訳) いくつかの研究は、通常、観察のレンズを通して、微調整の有効性の背景にある理由を調査している。 しかしながら、これらの研究はモデルが微調整されたデータセットのサイズの役割を無視することが多い。 本稿では,この因子の重要性と,その検証における否定できない役割について述べる。 符号化された言語知識の程度は、微調整サンプルの数に依存することを示す。 分析では、トレーニングデータが大きいことが主に上位層に影響し、この変化の程度が、トレーニングサンプルの多様性よりも、微調整中のモデル更新回数の要因であることも明らかになった。 最後に,データサイズを微調整することで,モデルの言語知識の変化の回復性に影響を及ぼすことを示す実験を行った。

Several studies have investigated the reasons behind the effectiveness of fine-tuning, usually through the lens of probing. However, these studies often neglect the role of the size of the dataset on which the model is fine-tuned. In this paper, we highlight the importance of this factor and its undeniable role in probing performance. We show that the extent of encoded linguistic knowledge depends on the number of fine-tuning samples. The analysis also reveals that larger training data mainly affects higher layers, and that the extent of this change is a factor of the number of iterations updating the model during fine-tuning rather than the diversity of the training samples. Finally, we show through a set of experiments that fine-tuning data size affects the recoverability of the changes made to the model's linguistic knowledge.
翻訳日:2022-03-21 13:53:30 公開日:2022-03-17
# グローバル特徴マップ変換器としてのメッセージパッシングニューラルネットワークの表現力について

On the expressive power of message-passing neural networks as global feature map transformers ( http://arxiv.org/abs/2203.09555v1 )

ライセンス: Link先を確認
Floris Geerts, Jasper Steegmans and Jan Van den Bussche(参考訳) 入力グラフのノードに格納されている数値的特徴を変換するために,メッセージパッシングニューラルネットワーク(MPNN)の能力について検討する。 我々の焦点はグローバル表現力であり、全ての入力グラフ、あるいは有界領域の特徴を持つ有界次数のグラフ上で一様である。 そこで我々は,GFMT (Global Feature Map Transformer) の概念を紹介した。 表現性のためのヤードスティックとして、GFMT の基本言語を使用し、これを MPLang と呼ぶ。 いずれのMPNNもMPLangで表現可能であり, コンバース包含度について検討した。 我々は、正確な対近似表現性、任意のアクティベーション関数の使用、ReLUアクティベーション関数のみを許容する場合について考察する。

We investigate the power of message-passing neural networks (MPNNs) in their capacity to transform the numerical features stored in the nodes of their input graphs. Our focus is on global expressive power, uniformly over all input graphs, or over graphs of bounded degree with features from a bounded domain. Accordingly, we introduce the notion of a global feature map transformer (GFMT). As a yardstick for expressiveness, we use a basic language for GFMTs, which we call MPLang. Every MPNN can be expressed in MPLang, and our results clarify to which extent the converse inclusion holds. We consider exact versus approximate expressiveness; the use of arbitrary activation functions; and the case where only the ReLU activation function is allowed.
翻訳日:2022-03-21 13:52:17 公開日:2022-03-17
# 複合最適化による大規模分布ロバストモデル学習

Learning Distributionally Robust Models at Scale via Composite Optimization ( http://arxiv.org/abs/2203.09607v1 )

ライセンス: Link先を確認
Farzin Haddadpour, Mohammad Mahdi Kamani, Mehrdad Mahdavi, Amin Karbasi(参考訳) データ内の分散シフトに対して堅牢な機械学習モデルをトレーニングするために、分散ロバスト最適化(DRO)が非常に効果的であることが証明されている。 しかし、分散的に堅牢なモデルを学ぶための既存のアプローチでは、半定値プログラミングのような複雑な最適化問題を解くか、データサンプルの数を線形にスケールする一階法を必要とする。 本稿では、DROの異なる変種が、スケーラブルな方法を提供する有限サム合成最適化の単なる例であることを示す。 また、非常に大規模なデータセットからロバストなモデルを学ぶために、先行技術に関して提案アルゴリズムの有効性を示す実験結果も提供する。

To train machine learning models that are robust to distribution shifts in the data, distributionally robust optimization (DRO) has been proven very effective. However, the existing approaches to learning a distributionally robust model either require solving complex optimization problems such as semidefinite programming or a first-order method whose convergence scales linearly with the number of data samples -- which hinders their scalability to large datasets. In this paper, we show how different variants of DRO are simply instances of a finite-sum composite optimization for which we provide scalable methods. We also provide empirical results that demonstrate the effectiveness of our proposed algorithm with respect to the prior art in order to learn robust models from very large datasets.
翻訳日:2022-03-21 13:50:36 公開日:2022-03-17
# SepTr:オーディオスペクトログラム処理のための分離可能な変換器

SepTr: Separable Transformer for Audio Spectrogram Processing ( http://arxiv.org/abs/2203.09581v1 )

ライセンス: Link先を確認
Nicolae-Catalin Ristea, Radu Tudor Ionescu, Fahad Shahbaz Khan(参考訳) 複数のコンピュータビジョンタスクで視覚トランスフォーマーが成功した後、これらのモデルは信号処理コミュニティの注目を集めた。 これは信号がしばしばスペクトログラム(例えば離散フーリエ変換)として表現され、視覚変換器への入力として直接提供されるためである。 しかし、トランスフォーマーをスペクトログラムに適用するのは最適ではない。 軸は異なる次元、すなわち周波数と時間を表すので、より優れたアプローチは各軸に向けられた注意を分離することである。 この目的のために,2つの変圧器ブロックを逐次的に使用するアーキテクチャであるSeparable Transformer (SepTr) を提案する。 我々は3つのベンチマークデータセットで実験を行い、分離可能なアーキテクチャが従来の視覚変換器や他の最先端手法よりも優れていることを示す。 標準変換器とは異なり、SepTrは入力サイズでトレーニング可能なパラメータの数を線形にスケールし、メモリフットプリントが小さくなる。 私たちのコードは、https://github.com/r istea/septr.comでオープンソースとして利用できます。

Following the successful application of vision transformers in multiple computer vision tasks, these models have drawn the attention of the signal processing community. This is because signals are often represented as spectrograms (e.g. through Discrete Fourier Transform) which can be directly provided as input to vision transformers. However, naively applying transformers to spectrograms is suboptimal. Since the axes represent distinct dimensions, i.e. frequency and time, we argue that a better approach is to separate the attention dedicated to each axis. To this end, we propose the Separable Transformer (SepTr), an architecture that employs two transformer blocks in a sequential manner, the first attending to tokens within the same frequency bin, and the second attending to tokens within the same time interval. We conduct experiments on three benchmark data sets, showing that our separable architecture outperforms conventional vision transformers and other state-of-the-art methods. Unlike standard transformers, SepTr linearly scales the number of trainable parameters with the input size, thus having a lower memory footprint. Our code is available as open source at https://github.com/r istea/septr.
翻訳日:2022-03-21 13:50:06 公開日:2022-03-17
# 単調微分型ソーティングネットワーク

Monotonic Differentiable Sorting Networks ( http://arxiv.org/abs/2203.09630v1 )

ライセンス: Link先を確認
Felix Petersen, Christian Borgelt, Hilde Kuehne, Oliver Deussen(参考訳) 差別化可能なソートアルゴリズムは、サンプルの順序付けやランク付けのみが知られているソートとランキング管理によるトレーニングを可能にする。 この課題に対処するために、最適なトランスポートベースの微分可能シンクホーンソートアルゴリズムから古典的なソートネットワークの微分可能化まで、様々な方法が提案されている。 現在の微分可能な分類方法の1つの問題は、それらは単調でないことである。 この問題に対処するために、微分可能なソートネットワークにおける単調性を保証する条件スワップ操作の緩和を提案する。 我々は,シグモイド関数の族を導入し,モノトニックな微分可能なソートネットワークを生成できることを証明する。 単調性は勾配が常に正しい符号を持つことを保証し、勾配に基づく最適化の利点となる。 モノトニック微分可能ソートネットワークは,従来の微分可能ソート手法により改善されることを示す。

Differentiable sorting algorithms allow training with sorting and ranking supervision, where only the ordering or ranking of samples is known. Various methods have been proposed to address this challenge, ranging from optimal transport-based differentiable Sinkhorn sorting algorithms to making classic sorting networks differentiable. One problem of current differentiable sorting methods is that they are non-monotonic. To address this issue, we propose a novel relaxation of conditional swap operations that guarantees monotonicity in differentiable sorting networks. We introduce a family of sigmoid functions and prove that they produce differentiable sorting networks that are monotonic. Monotonicity ensures that the gradients always have the correct sign, which is an advantage in gradient-based optimization. We demonstrate that monotonic differentiable sorting networks improve upon previous differentiable sorting methods.
翻訳日:2022-03-21 13:35:42 公開日:2022-03-17
# sticc:空間連続性を考慮した繰り返し地理的パターン発見のための多変量空間クラスタリング手法

STICC: A multivariate spatial clustering method for repeated geographic pattern discovery with consideration of spatial contiguity ( http://arxiv.org/abs/2203.09611v1 )

ライセンス: Link先を確認
Yuhao Kang, Kunlin Wu, Song Gao, Ignavier Ng, Jinmeng Rao, Shan Ye, Fan Zhang, Teng Fei(参考訳) 空間クラスタリングは空間データマイニングや知識発見に広く利用されている。 理想的な多変量空間クラスタリングは,空間的連続性と空間的属性の両方を考慮すべきである。 既存の空間クラスタリングアプローチは、空間的連続性を維持した地理的パターンを繰り返し発見する上での課題に直面する可能性がある。 本稿では,多変量空間クラスタリングのための地理的対象の属性と空間関係を考慮した空間的トープリッツ逆共分散型クラスタリング(sticc)手法を提案する。 クラスタ実行時に基本単位として機能する地理的オブジェクト毎にサブリージョンが生成される。 その後、部分領域の属性依存性を特徴付けるためにマルコフ確率場が構築される。 空間的整合性戦略を用いて、近くのオブジェクトは同じクラスタに属することを奨励する。 提案するSTICCアルゴリズムの性能をテストするために,2つのユースケースに適用する。 その結果、STICCは調整されたランド指数とマクロF1スコアで他よりも優れていた。 結合数統計も計算され、空間の連続性がSTICCによってよく保存されていることを示す。 このような空間クラスタリング手法は、地理、リモートセンシング、交通、都市計画などの分野における様々な応用に有用である。

Spatial clustering has been widely used for spatial data mining and knowledge discovery. An ideal multivariate spatial clustering should consider both spatial contiguity and aspatial attributes. Existing spatial clustering approaches may face challenges for discovering repeated geographic patterns with spatial contiguity maintained. In this paper, we propose a Spatial Toeplitz Inverse Covariance-Based Clustering (STICC) method that considers both attributes and spatial relationships of geographic objects for multivariate spatial clustering. A subregion is created for each geographic object serving as the basic unit when performing clustering. A Markov random field is then constructed to characterize the attribute dependencies of subregions. Using a spatial consistency strategy, nearby objects are encouraged to belong to the same cluster. To test the performance of the proposed STICC algorithm, we apply it in two use cases. The comparison results with several baseline methods show that the STICC outperforms others significantly in terms of adjusted rand index and macro-F1 score. Join count statistics is also calculated and shows that the spatial contiguity is well preserved by STICC. Such a spatial clustering method may benefit various applications in the fields of geography, remote sensing, transportation, and urban planning, etc.
翻訳日:2022-03-21 13:33:22 公開日:2022-03-17
# 多段階深層学習による船舶の表面欠陥検出と評価

Surface Defect Detection and Evaluation for Marine Vessels using Multi-Stage Deep Learning ( http://arxiv.org/abs/2203.09580v1 )

ライセンス: Link先を確認
Li Yu, Kareem Metwaly, James Z. Wang, Vishal Monga(参考訳) 船舶の維持には表面塗膜欠陥の検出と評価が重要である。 現在、国際基準と自身の経験を用いて、適格検査官が手動で評価を行っている。 船舶の種類、塗装面、塗装条件、照明条件、気象条件、塗装色、船舶の面積、運用時間などの変化が大きいため、プロセスの自動化は非常に困難である。 本報告では, 血管表面の腐食, 汚濁, 剥離率を正常写真から検出し, 評価するための, 深層学習に基づくパイプラインを提案する。 そこで本研究では, 船舶の断面分割, 欠陥分割, 欠陥分類を含む多段階画像処理フレームワークを提案し, 異なる種類の欠陥を自動的に認識し, 船舶表面の被覆率を測定する。 実験の結果,提案するパイプラインは,有資格検査器と同等の評価を客観的に行うことができることがわかった。

Detecting and evaluating surface coating defects is important for marine vessel maintenance. Currently, the assessment is carried out manually by qualified inspectors using international standards and their own experience. Automating the processes is highly challenging because of the high level of variation in vessel type, paint surface, coatings, lighting condition, weather condition, paint colors, areas of the vessel, and time in service. We present a novel deep learning-based pipeline to detect and evaluate the percentage of corrosion, fouling, and delamination on the vessel surface from normal photographs. We propose a multi-stage image processing framework, including ship section segmentation, defect segmentation, and defect classification, to automatically recognize different types of defects and measure the coverage percentage on the ship surface. Experimental results demonstrate that our proposed pipeline can objectively perform a similar assessment as a qualified inspector.
翻訳日:2022-03-21 13:33:03 公開日:2022-03-17
# 深層学習を用いた手術作業の映像ベース定式化と要約評価

Video-based Formative and Summative Assessment of Surgical Tasks using Deep Learning ( http://arxiv.org/abs/2203.09589v1 )

ライセンス: Link先を確認
Erim Yanik, Uwe Kruger, Xavier Intes, Rahul Rahul, and Suvranu De(参考訳) 良好な臨床結果を保証するために、外科的スキル評価は客観的、時間効率、優先的に自動化されなければならない。 ビデオベースアセスメント(VBA)は、技術スキルの実行を評価するために、術中およびシミュレーション設定にデプロイされている。 しかしながら、VBAは手動および時間集約的なままであり、主観的解釈とラター間の信頼性が低い。 そこで本研究では,映像フィードに基づく手術スキル実行の高精細度評価と低精細度評価を自動的かつ客観的に提供し,手術スキル獲得を支援する深層学習モデルを提案する。 形成的評価は手術成績と相関する視覚特徴のヒートマップを用いて行われる。 したがって、DLモデルは、手術訓練、認証、資格化において広く普及する可能性のあるビデオから、外科的タスクの定量的かつ再現可能な評価への道を開く。

To ensure satisfactory clinical outcomes, surgical skill assessment must be objective, time-efficient, and preferentially automated - none of which is currently achievable. Video-based assessment (VBA) is being deployed in intraoperative and simulation settings to evaluate technical skill execution. However, VBA remains manually- and time-intensive and prone to subjective interpretation and poor inter-rater reliability. Herein, we propose a deep learning (DL) model that can automatically and objectively provide a high-stakes summative assessment of surgical skill execution based on video feeds and low-stakes formative assessment to guide surgical skill acquisition. Formative assessment is generated using heatmaps of visual features that correlate with surgical performance. Hence, the DL model paves the way to the quantitative and reproducible evaluation of surgical tasks from videos with the potential for broad dissemination in surgical training, certification, and credentialing.
翻訳日:2022-03-21 13:32:49 公開日:2022-03-17
# DP-KB: 質問文選択のための変換器ファインチューニングを改善する知識ベースデータプログラミング

DP-KB: Data Programming with Knowledge Bases Improves Transformer Fine Tuning for Answer Sentence Selection ( http://arxiv.org/abs/2203.09598v1 )

ライセンス: Link先を確認
Nic Jedema, Thuy Vu, Manish Gupta, and Alessandro Moschitti(参考訳) トランスフォーマーは多くの知識集中型タスク(KI)で顕著なパフォーマンスを示すが、いくつかのスロット充足、質問応答(QA)、事実検証、エンティティリンクタスクで示されるように、暗黙の知識ベース(KB)として機能する能力は制限されている。 本稿では,KB由来の文脈で学習データを強化し,特定のQAタスク,すなわち回答文選択(AS2)を微調整する際の符号化知識のトランスフォーマー利用を改善する,効率的なデータプログラミング手法を提案する。 WikiQA と TrecQA のアートトランスフォーマーアプローチでは,2つのAS2 ベンチマークでそれぞれ2.0% p@1, 1.3% MAP, 1.1% MRR, 4.4% p@1, 0.9% MAP, 2.4% MRR の増加が見られた。 業界環境での改善を実証するため、Alexa QAペアのプロプライエタリなデータセットに対するアプローチをさらに評価し、2.3% F1と2.0% MAPの増加を示す。 さらに、これらの改善は、推論時にkbコンテキストが省略された場合でも継続され、既存のトランスフォーマーワークフロー内で、さらなるレイテンシやデプロイメントコストなしで、モデルの使用が可能になります。

While transformers demonstrate impressive performance on many knowledge intensive (KI) tasks, their ability to serve as implicit knowledge bases (KBs) remains limited, as shown on several slot-filling, question-answering (QA), fact verification, and entity-linking tasks. In this paper, we implement an efficient, data-programming technique that enriches training data with KB-derived context and improves transformer utilization of encoded knowledge when fine-tuning for a particular QA task, namely answer sentence selection (AS2). Our method outperforms state of the art transformer approach on WikiQA and TrecQA, two widely studied AS2 benchmarks, increasing by 2.0% p@1, 1.3% MAP, 1.1% MRR, and 4.4% p@1, 0.9% MAP, 2.4% MRR, respectively. To demonstrate our improvements in an industry setting, we additionally evaluate our approach on a proprietary dataset of Alexa QA pairs, and show increase of 2.3% F1 and 2.0% MAP. We additionally find that these improvements remain even when KB context is omitted at inference time, allowing for the use of our models within existing transformer workflows without additional latency or deployment costs.
翻訳日:2022-03-21 13:32:20 公開日:2022-03-17
# (参考訳) アフリカ言語のためのアフロセントリックなnlpに向けて:どこにいて、どこへ行けるか [全文訳有]

Towards Afrocentric NLP for African Languages: Where We Are and Where We Can Go ( http://arxiv.org/abs/2203.08351v2 )

ライセンス: CC BY 4.0
Ife Adebara and Muhammad Abdul-Mageed(参考訳) ACL 2022 の特別テーマ "Language Diversity: from Low Resource to Endangered Languages" に従って,アフリカ言語のためのNLP技術開発に直面する主要な言語的・社会的課題について論じる。 アフリカの言語を類型的枠組みで分類し,これらの言語の特徴をどのように活用できるかを論じる。 今後の研究を促進するために、現在の取り組み、コミュニティ、会場、データセット、ツールも強調します。 私たちの主な目的は、技術開発におけるアフロ中心のアプローチを動機付け、提唱することです。 このことを念頭に置いて、ローカルアフリカコミュニティのニーズに基づいて、構築、評価、デプロイするために、構築する \textit{what} テクノロジと、構築する \textit{how} テクノロジを推奨します。

Aligning with ACL 2022 special Theme on "Language Diversity: from Low Resource to Endangered Languages", we discuss the major linguistic and sociopolitical challenges facing development of NLP technologies for African languages. Situating African languages in a typological framework, we discuss how the particulars of these languages can be harnessed. To facilitate future research, we also highlight current efforts, communities, venues, datasets, and tools. Our main objective is to motivate and advocate for an Afrocentric approach to technology development. With this in mind, we recommend \textit{what} technologies to build and \textit{how} to build, evaluate, and deploy them based on the needs of local African communities.
翻訳日:2022-03-21 12:44:20 公開日:2022-03-17
# (参考訳) 学習可能なエージェントを用いた自然言語コミュニケーション [全文訳有]

Natural Language Communication with a Teachable Agent ( http://arxiv.org/abs/2203.09016v1 )

ライセンス: CC BY 4.0
Rachel Love (1), Edith Law (2), Philip R. Cohen (1 and 3), Dana Kuli\'c (1) ((1) Monash University, (2) University of Waterloo, (3) Openstream Inc)(参考訳) 会話型教育エージェントは、教室とリモート設定の両方で学習をサポートする有望なプラットフォームを提供する。 この文脈では、エージェントは初心者の役割を担い、生徒は教師の役割を担っている。 このフレーミングは、学生教師におけるprot\'eg\'e効果を誘発する能力において重要である。 先行研究において、指導可能なエージェントは学習の相互作用において受動的役割を担い、エージェントと生徒が学習タスク中に自然言語対話を行う研究はほとんどない。 本研究は,Webベースの教育プラットフォームであるCuriosity Notebookを通じて,仮想エージェントと対話する際のモダリティ教育の効果を検討する。 原材料から文を選択してエージェントを教える方法と、原材料を言い換えてテキスト入力を入力して教える方法とを比較する。 参加者の学習結果と関与に対するモダリティ指導の効果を計測するために,ユーザ調査を実施した。 その結果, パラフレーズやテキスト入力による授業は, 教材の学習結果や, 情緒的エンゲージメントの側面に肯定的な影響を及ぼすことがわかった。 さらに,教師がロボットに伝達した教材と原材料との類似性によって測定された言い換え作業の増加は,参加者の学習結果を改善する。

Conversational teachable agents offer a promising platform to support learning, both in the classroom and in remote settings. In this context, the agent takes the role of the novice, while the student takes on the role of teacher. This framing is significant for its ability to elicit the Prot\'eg\'e effect in the student-teacher, a pedagogical phenomenon known to increase engagement in the teaching task, and also improve cognitive outcomes. In prior work, teachable agents often take a passive role in the learning interaction, and there are few studies in which the agent and student engage in natural language dialogue during the teaching task. This work investigates the effect of teaching modality when interacting with a virtual agent, via the web-based teaching platform, the Curiosity Notebook. A method of teaching the agent by selecting sentences from source material is compared to a method paraphrasing the source material and typing text input to teach. A user study has been conducted to measure the effect teaching modality on the learning outcomes and engagement of the participants. The results indicate that teaching via paraphrasing and text input has a positive effect on learning outcomes for the material covered, and also on aspects of affective engagement. Furthermore, increased paraphrasing effort, as measured by the similarity between the source material and the material the teacher conveyed to the robot, improves learning outcomes for participants.
翻訳日:2022-03-19 05:57:25 公開日:2022-03-17
# (参考訳) データサイエンスと機械学習におけるカン拡張 [全文訳有]

Kan Extensions in Data Science and Machine Learning ( http://arxiv.org/abs/2203.09018v1 )

ライセンス: CC BY 4.0
Dan Shiebler(参考訳) データサイエンスにおける一般的な問題は、「この小さな集合上で定義されたこの関数を使用して、その大きな集合に対する予測を生成する」ことである。 補間、補間、統計的推測、予測は全てこの問題に還元される。 カン拡大はこの概念を一般化する圏論において強力な道具である。 本研究では,データサイエンスにおけるkan拡張の応用について検討する。 まず,単純な分類アルゴリズムをkan拡張として導出し,本アルゴリズムを実データ上で実験する。 次に,kan拡張を用いてラベルからクラスタリングアルゴリズムを学習する手順を導出し,本手法の性能を実データ上で検証する。 次に,ラベル付き例のデータセットから関数への一般マッピングを学習し,複雑な関数を単純な関数で近似するためにkan拡張をどのように利用できるかを検討する。

A common problem in data science is "use this function defined over this small set to generate predictions over that larger set." Extrapolation, interpolation, statistical inference and forecasting all reduce to this problem. The Kan extension is a powerful tool in category theory that generalizes this notion. In this work we explore several applications of Kan extensions to data science. We begin by deriving a simple classification algorithm as a Kan extension and experimenting with this algorithm on real data. Next, we use the Kan extension to derive a procedure for learning clustering algorithms from labels and explore the performance of this procedure on real data. We then investigate how Kan extensions can be used to learn a general mapping from datasets of labeled examples to functions and to approximate a complex function with a simpler one.
翻訳日:2022-03-19 05:38:25 公開日:2022-03-17
# (参考訳) 深層学習によるフェーズド飛行軌道予測 [全文訳有]

Phased Flight Trajectory Prediction with Deep Learning ( http://arxiv.org/abs/2203.09033v1 )

ライセンス: CC BY 4.0
Kai Zhang, Bowen Chen(参考訳) 商用航空会社や民間ジェット機の増加は、今後10年間にわたって、航空管制の課題となっている。 正確な飛行軌跡予測は、安全かつ秩序ある飛行の決定に寄与する航空輸送管理において非常に重要である。 既存の研究や応用は、主に歴史的軌跡に基づくシーケンス生成に重点を置いているが、混雑した空域における航空機と航空機の相互作用は、特に空港周辺では無視されている。 一方, 異なる飛行相の空力特性は異なっており, 気象や航空管制官の助言など, 様々な不確実性の影響を受けている可能性がある。 しかし、これらの問題を十分に考慮した文献はない。 そこで我々はフェーズド飛行軌道予測フレームワークを提案した。 マルチソースおよびマルチモーダルデータセットは、リカレントニューラルネットワーク(RNN)の変種を用いて分析され、採掘されている。 具体的には,まず,低高度気道予測問題に時空グラフを導入し,航空機の動作制約を推定プロセスに組み込むことにより,信頼性の高い予測結果を得る。 en-routeフェーズでは、動的環境で隠れたパターンを学ぶために、データセット全体からより重要な特徴を適応的に抽出するためにデュアルアテンション機構が使用される。 提案手法は,大型旅客機や輸送機の飛行軌跡予測に最先端の手法を上回ることができることを実証した。

The unprecedented increase of commercial airlines and private jets over the next ten years presents a challenge for air traffic control. Precise flight trajectory prediction is of great significance in air transportation management, which contributes to the decision-making for safe and orderly flights. Existing research and application mainly focus on the sequence generation based on historical trajectories, while the aircraft-aircraft interactions in crowded airspace especially the airspaces near busy airports have been largely ignored. On the other hand, there are distinct characteristics of aerodynamics for different flight phases, and the trajectory may be affected by various uncertainties such as weather and advisories from air traffic controllers. However, there is no literature fully considers all these issues. Therefore, we proposed a phased flight trajectory prediction framework. Multi-source and multi-modal datasets have been analyzed and mined using variants of recurrent neural network (RNN) mixture. To be specific, we first introduce spatio temporal graphs into the low-altitude airway prediction problem, and the motion constraints of an aircraft are embedded to the inference process for reliable forecasting results. In the en-route phase, the dual attention mechanism is employed to adaptively extract much more important features from overall datasets to learn the hidden patterns in dynamical environments. The experimental results demonstrate our proposed framework can outperform state-of-the-art methods for flight trajectory prediction for large passenger/transport airplanes.
翻訳日:2022-03-19 05:13:12 公開日:2022-03-17
# (参考訳) HybridNets: エンドツーエンドの知覚ネットワーク [全文訳有]

HybridNets: End-to-End Perception Network ( http://arxiv.org/abs/2203.09035v1 )

ライセンス: CC BY 4.0
Dat Vu, Bao Ngo and Hung Phan(参考訳) エンドツーエンドネットワークは、マルチタスクにおいてますます重要になっている。 この顕著な例は、自動運転における運転認識システムの重要性の高まりである。 本稿では,マルチタスクのためのエンド・ツー・エンド知覚ネットワークを体系的に研究し,精度向上のためのいくつかの鍵最適化を提案する。 まず,重み付き双方向特徴ネットワークに基づく効率的なセグメンテーションヘッドとボックス/クラス予測ネットワークを提案する。 第2に,重み付き双方向特徴ネットワークにおいて,各レベルに対して自動カスタマイズアンカーを提案する。 第3に,ネットワークのバランスと最適化のための効率的なトレーニング損失関数とトレーニング戦略を提案する。 これらの最適化に基づき,交通物体検出,乾燥領域分割,車線検出を同時に行う「HybridNets」など,先行技術よりも精度の高いマルチタスクを実現するエンド・ツー・エンド認識ネットワークを開発した。 特に、hybridnetsはバークレーのdeepdriveデータセットで77.3平均精度を達成し、12.83億のパラメータと15.6億浮動小数点演算を持つユニオン上の31.6平均交点でレーン検出を上回っている。 さらに,視覚認知タスクをリアルタイムに行うことが可能であり,マルチタスク問題に対する実用的かつ正確な解決法である。 コードはhttps://github.com/d atvuthanh/hybridnets で入手できる。

End-to-end Network has become increasingly important in multi-tasking. One prominent example of this is the growing significance of a driving perception system in autonomous driving. This paper systematically studies an end-to-end perception network for multi-tasking and proposes several key optimizations to improve accuracy. First, the paper proposes efficient segmentation head and box/class prediction networks based on weighted bidirectional feature network. Second, the paper proposes automatically customized anchor for each level in the weighted bidirectional feature network. Third, the paper proposes an efficient training loss function and training strategy to balance and optimize network. Based on these optimizations, we have developed an end-to-end perception network to perform multi-tasking, including traffic object detection, drivable area segmentation and lane detection simultaneously, called HybridNets, which achieves better accuracy than prior art. In particular, HybridNets achieves 77.3 mean Average Precision on Berkeley DeepDrive Dataset, outperforms lane detection with 31.6 mean Intersection Over Union with 12.83 million parameters and 15.6 billion floating-point operations. In addition, it can perform visual perception tasks in real-time and thus is a practical and accurate solution to the multi-tasking problem. Code is available at https://github.com/d atvuthanh/HybridNets .
翻訳日:2022-03-19 04:53:24 公開日:2022-03-17
# (参考訳) 高効率BERTのための微粒・粗粒ハイブリッドセルフアテンション [全文訳有]

Fine- and Coarse-Granularity Hybrid Self-Attention for Efficient BERT ( http://arxiv.org/abs/2203.09055v1 )

ライセンス: CC BY-SA 4.0
Jing Zhao, Yifan Wang, Junwei Bao, Youzheng Wu, Xiaodong He(参考訳) BERTのようなトランスフォーマーベースの事前学習モデルは、多くの自然言語処理アプリケーションにおいて最先端の結果を達成するのに驚くべき成功を収めている。 しかし、トランスフォーマーの標準自己着脱機構は入力シーケンス長の2次計算コストに苦しむため、これらのモデルのデプロイは禁止的にコストがかかる。 そこで本研究では, 計算列長を漸進的に短縮することにより, 計算コストを低減し, 微粒かつ粗粒のハイブリッド自己アテンションであるFCAを提案する。 具体的には、fcaは各層におけるトークンのインフォメーション性を決定するために注意に基づくスコアリング戦略を行う。 そして、情報トークンを自己着脱時の微細粒度演算単位とし、自己着脱時の粗粒度演算単位として、非形成トークンを1つ又は複数のクラスタに置き換える。 GLUE と RACE データセットの実験により、FCA を用いた BERT は元の BERT よりも 2 倍の FLOP 削減を実現し、精度は 1% 低下した。 FCAは従来の手法に比べて精度とFLOPのトレードオフが著しく優れていることを示す。

Transformer-based pre-trained models, such as BERT, have shown extraordinary success in achieving state-of-the-art results in many natural language processing applications. However, deploying these models can be prohibitively costly, as the standard self-attention mechanism of the Transformer suffers from quadratic computational cost in the input sequence length. To confront this, we propose FCA, a fine- and coarse-granularity hybrid self-attention that reduces the computation cost through progressively shortening the computational sequence length in self-attention. Specifically, FCA conducts an attention-based scoring strategy to determine the informativeness of tokens at each layer. Then, the informative tokens serve as the fine-granularity computing units in self-attention and the uninformative tokens are replaced with one or several clusters as the coarse-granularity computing units in self-attention. Experiments on GLUE and RACE datasets show that BERT with FCA achieves 2x reduction in FLOPs over original BERT with <1% loss in accuracy. We show that FCA offers a significantly better trade-off between accuracy and FLOPs compared to prior methods.
翻訳日:2022-03-19 04:37:05 公開日:2022-03-17
# (参考訳) DeepNIR: 合成NIR画像生成のためのデータセットと深層学習技術を用いた果実検出システムの改良

deepNIR: Datasets for generating synthetic NIR images and improved fruit detection system using deep learning techniques ( http://arxiv.org/abs/2203.09091v1 )

ライセンス: CC BY 4.0
Inkyu Sa, JongYoon Lim, Ho Seok Ahn, Bruce MacDonald(参考訳) 本稿では,合成近赤外(NIR)画像生成とバウンディングボックスレベルの果物検出システムに用いるデータセットを提案する。 TensorflowやPytorchといった高度な機械学習フレームワークや、GPUハードウェアの高速化による大規模なImageNetやCOCOデータセットが、機械学習技術の限界を数十年以上押し上げたことは、疑いようもない。 これらのブレークスルーの中で、高品質なデータセットは、モデル一般化とデータ駆動のディープニューラルネットワークのデプロイの成功に繋がる重要なビルディングブロックの1つである。 特に、合成データ生成タスクは、他の教師付きアプローチよりも多くのトレーニングサンプルを必要とする。 そこで本論文では,NIR+RGB データセットを2つの公開データセット(例えば,Nircene と SEN12MS)と新規な NIR+RGB スイートペッパー(capsicum)データセットから再処理する。 我々は,これらのNIR+RGBデータセットが合成NIR画像生成に十分であることを示す。 11.36,26.53,40.15のFrechet Inception Distance(FID)をNirscene1,SEN12MS,甘辛料データセットでそれぞれ達成した。 さらに、クラウドサービスを使ってさまざまなフォーマットでエクスポートできる11のフルーツバウンディングボックスのマニュアルアノテーションもリリースしています。 deepfruitsプロジェクト(アップル、アボカド、カプシカム、マンゴー、オレンジ、ロックメロン、イチゴ)で紹介された以前の作業に加えて、新たに4つの果物(ブルーベリー、チェリー、キウイ、小麦)が新たに追加された。 データセットのバウンディングボックスインスタンスの総数は162kで、クラウドサービスから使用可能である。 データセットの評価には,Yolov5単段検出器を用い,平均精度,mAP[0.5:0.95],[min:0.49, max:0.812]の結果を報告する。 これらのデータセットが有用であり、将来の研究のベースラインになることを期待しています。

This paper presents datasets utilised for synthetic near-infrared (NIR) image generation and bounding-box level fruit detection systems. It is undeniable that high-calibre machine learning frameworks such as Tensorflow or Pytorch, and large-scale ImageNet or COCO datasets with the aid of accelerated GPU hardware have pushed the limit of machine learning techniques for more than decades. Among these breakthroughs, a high-quality dataset is one of the essential building blocks that can lead to success in model generalisation and the deployment of data-driven deep neural networks. In particular, synthetic data generation tasks often require more training samples than other supervised approaches. Therefore, in this paper, we share the NIR+RGB datasets that are re-processed from two public datasets (i.e., nirscene and SEN12MS) and our novel NIR+RGB sweet pepper(capsicum) dataset. We quantitatively and qualitatively demonstrate that these NIR+RGB datasets are sufficient to be used for synthetic NIR image generation. We achieved Frechet Inception Distance (FID) of 11.36, 26.53, and 40.15 for nirscene1, SEN12MS, and sweet pepper datasets respectively. In addition, we release manual annotations of 11 fruit bounding boxes that can be exported as various formats using cloud service. Four newly added fruits [blueberry, cherry, kiwi, and wheat] compound 11 novel bounding box datasets on top of our previous work presented in the deepFruits project [apple, avocado, capsicum, mango, orange, rockmelon, strawberry]. The total number of bounding box instances of the dataset is 162k and it is ready to use from cloud service. For the evaluation of the dataset, Yolov5 single stage detector is exploited and reported impressive mean-average-precisi on,mAP[0.5:0.95] results of[min:0.49, max:0.812]. We hope these datasets are useful and serve as a baseline for the future studies.
翻訳日:2022-03-19 04:23:34 公開日:2022-03-17
# (参考訳) ワンショット物体検出用セマンティックアライメントフュージョントランスフォーマ

Semantic-aligned Fusion Transformer for One-shot Object Detection ( http://arxiv.org/abs/2203.09093v1 )

ライセンス: CC BY 4.0
Yizhou Zhao, Xun Guo, Yan Lu(参考訳) ワンショットオブジェクト検出は、与えられた1つのインスタンスに従って新しいオブジェクトを検出することを目的としている。 極端なデータ不足により、現在のアプローチでは、直接転送可能なメタ知識を得るために様々な特徴融合を探索している。 しかし、彼らのパフォーマンスはしばしば不満足です。 本稿では,空間構造やスケールのばらつきを見極めることで,クエリ支援の意味を誤る不適切な相関手法を提案する。 分析を行う際,注意機構を活用し,semantic-aligned fusion transformer (saft) という,単純かつ効果的なアーキテクチャを提案する。 具体的には,クロススケールなセマンティクスエンハンスメントのための垂直融合モジュール (vfm) と,クロスサンプル特徴融合のための水平融合モジュール (hfm) を備える。 合わせて、クエリから拡張された機能ピラミッド全体へのサポートから、各機能ポイントのビジョンを広げ、セマンティックな関連付けを促進する。 複数のベンチマークに関する広範囲な実験が、我々のフレームワークの優位性を示しています。 新しいクラスを微調整することなく、1段階のベースラインに大幅なパフォーマンス向上をもたらし、最先端の成果をより高いレベルに引き上げる。

One-shot object detection aims at detecting novel objects according to merely one given instance. With extreme data scarcity, current approaches explore various feature fusions to obtain directly transferable meta-knowledge. Yet, their performances are often unsatisfactory. In this paper, we attribute this to inappropriate correlation methods that misalign query-support semantics by overlooking spatial structures and scale variances. Upon analysis, we leverage the attention mechanism and propose a simple but effective architecture named Semantic-aligned Fusion Transformer (SaFT) to resolve these issues. Specifically, we equip SaFT with a vertical fusion module (VFM) for cross-scale semantic enhancement and a horizontal fusion module (HFM) for cross-sample feature fusion. Together, they broaden the vision for each feature point from the support to a whole augmented feature pyramid from the query, facilitating semantic-aligned associations. Extensive experiments on multiple benchmarks demonstrate the superiority of our framework. Without fine-tuning on novel classes, it brings significant performance gains to one-stage baselines, lifting state-of-the-art results to a higher level.
翻訳日:2022-03-19 04:20:03 公開日:2022-03-17
# (参考訳) deepad: アルツハイマー病進行のロバストなディープラーニングモデルによる実世界臨床応用 [全文訳有]

DeepAD: A Robust Deep Learning Model of Alzheimer's Disease Progression for Real-World Clinical Applications ( http://arxiv.org/abs/2203.09096v1 )

ライセンス: CC0 1.0
Somaye Hashemifar, Claudia Iriondo, Evan Casey, Mohsen Hejrat(参考訳) 患者の将来の軌跡を予測する能力は、アルツハイマー病(AD)のような複雑な疾患の治療薬の開発に向けた重要なステップである。 しかし、病気の進行を予測するために開発されたほとんどの機械学習アプローチは、単一タスクモデルまたは単一モダリティモデルであり、高次元画像を用いたマルチタスク学習を含む設定では直接適用できない。 さらに、これらのアプローチのほとんどは単一のデータセット(すなわちコホート)で訓練されており、他のコホートには一般化できない。 本稿では,複数コホートからの経時的臨床・神経画像データを分析し,AD進行を予測するためのマルチモーダル・マルチタスク深層学習モデルを提案する。 提案モデルでは,3次元畳み込みニューラルネットワークの高次元MRI特徴と臨床および人口統計情報を含む他のデータモダリティを統合し,患者の将来の軌跡を予測する。 本モデルでは,研究固有の画像バイアス,特に研究間領域シフトを緩和するために,敵対的損失を用いる。 さらに,シャープネス・アウェア・最小化(SAM)最適化手法を適用し,モデル一般化をさらに改善した。 提案モデルでは, 実験結果の評価と検証のために, 各種データセット上で実験を行った。 私たちの結果は 1)我々のモデルはベースラインモデルよりも大幅に改善され、 2) 3次元畳み込みニューラルネットワークから抽出したニューロイメージング特徴を用いたモデルは,MRI由来の容積特徴に適用した場合に,同じモデルより優れている。

The ability to predict the future trajectory of a patient is a key step toward the development of therapeutics for complex diseases such as Alzheimer's disease (AD). However, most machine learning approaches developed for prediction of disease progression are either single-task or single-modality models, which can not be directly adopted to our setting involving multi-task learning with high dimensional images. Moreover, most of those approaches are trained on a single dataset (i.e. cohort), which can not be generalized to other cohorts. We propose a novel multimodal multi-task deep learning model to predict AD progression by analyzing longitudinal clinical and neuroimaging data from multiple cohorts. Our proposed model integrates high dimensional MRI features from a 3D convolutional neural network with other data modalities, including clinical and demographic information, to predict the future trajectory of patients. Our model employs an adversarial loss to alleviate the study-specific imaging bias, in particular the inter-study domain shifts. In addition, a Sharpness-Aware Minimization (SAM) optimization technique is applied to further improve model generalization. The proposed model is trained and tested on various datasets in order to evaluate and validate the results. Our results showed that 1) our model yields significant improvement over the baseline models, and 2) models using extracted neuroimaging features from 3D convolutional neural network outperform the same models when applied to MRI-derived volumetric features.
翻訳日:2022-03-19 04:19:03 公開日:2022-03-17
# (参考訳) コミュニティ駆動型総合科学論文要約: cvpaper.challenge [全文訳有]

Community-Driven Comprehensive Scientific Paper Summarization: Insight from cvpaper.challenge ( http://arxiv.org/abs/2203.09109v1 )

ライセンス: CC BY 4.0
Shintaro Yamamoto, Hirokatsu Kataoka, Ryota Suzuki, Seitaro Shinagawa, Shigeo Morishima(参考訳) 本稿では,ボランティア参加者による会議手続の要約を執筆するグループ活動を紹介する。 科学論文の急速な増加は、研究者、特に科学文献を調査する必要がある非ネイティブ話者にとって重荷となる。 この問題を軽減するため,我々は非ネイティブな英語話者のグループを組織し,コンピュータビジョン会議で提示された論文の要約を書き,グループによって読み上げられた論文の知識を共有する。 2019年と2020年には、コンピュータビジョンとパターン認識に関するカンファレンス(Computer Vision and Pattern Recognition)で、合計2000の論文をまとめました。 論文の閲覧状況について,参加者の選択を定量的に分析した。 実験結果から,参加者が興味のない論文を読むことなく,幅広い論文を要約できることが示唆された。

The present paper introduces a group activity involving writing summaries of conference proceedings by volunteer participants. The rapid increase in scientific papers is a heavy burden for researchers, especially non-native speakers, who need to survey scientific literature. To alleviate this problem, we organized a group of non-native English speakers to write summaries of papers presented at a computer vision conference to share the knowledge of the papers read by the group. We summarized a total of 2,000 papers presented at the Conference on Computer Vision and Pattern Recognition, a top-tier conference on computer vision, in 2019 and 2020. We quantitatively analyzed participants' selection regarding which papers they read among the many available papers. The experimental results suggest that we can summarize a wide range of papers without asking participants to read papers unrelated to their interests.
翻訳日:2022-03-19 04:06:11 公開日:2022-03-17
# (参考訳) 時間とデータの価値

Time and the Value of Data ( http://arxiv.org/abs/2203.09118v1 )

ライセンス: CC BY 4.0
Ehsan Valavi, Joel Hestness, Newsha Ardalani, Marco Iansiti(参考訳) マネージャはしばしば、より多くのデータを集めることで、機械学習モデルの精度が継続的に向上すると考えている。 しかし、この論文では、データが時間とともに関連性を失う場合、古い(関係のない)データを無限に供給する代わりに、限られた量の最近のデータを集めるのが最適であると主張する。 さらに、古いデータセットを含むことでデータの在庫を増やすことは、実際にモデルの精度を損なう可能性があると論じる。 予想通り、モデルの精度はデータフロー(データ収集レートとして定義される)を増加させることで向上するが、機械学習モデルのリフレッシュや再トレーニングという面では、他のトレードオフが必要になる。 これらの結果を用いて,機械学習モデルが生み出すビジネス価値がデータとどのようにスケールするか,そしてデータの蓄積が持続的な競争優位性を確立するときについて検討する。 データの時間依存性は、データの在庫が生み出す参入障壁を弱めると主張する。 その結果、最近の限られた(十分な)量のデータを備えた競合企業がより正確なモデルを開発することができる。 この結果は、古いデータセットがモデルの精度を低下させる可能性があるという事実と相まって、企業がデータレポジトリからあまり関連のないデータをオフロードしない限り、生成したビジネス価値が利用可能なデータのストックにスケールしないことを示唆している。 したがって、企業の成長政策は、履歴データの在庫と新たなデータの流れのバランスを組み込むべきである。 我々は理論結果を実験で補完する。 実験では,様々な時間からデータセット上で学習した次の単語予測モデルの精度の損失を実証的に測定する。 実証的な測定は、時間とともに価値が低下することの経済的重要性を確認する。 例えば、7年後の100MBのテキストデータは、次のワード予測タスクの50MBの現在のデータと同じくらいの価値を持つ。

Managers often believe that collecting more data will continually improve the accuracy of their machine learning models. However, we argue in this paper that when data lose relevance over time, it may be optimal to collect a limited amount of recent data instead of keeping around an infinite supply of older (less relevant) data. In addition, we argue that increasing the stock of data by including older datasets may, in fact, damage the model's accuracy. Expectedly, the model's accuracy improves by increasing the flow of data (defined as data collection rate); however, it requires other tradeoffs in terms of refreshing or retraining machine learning models more frequently. Using these results, we investigate how the business value created by machine learning models scales with data and when the stock of data establishes a sustainable competitive advantage. We argue that data's time-dependency weakens the barrier to entry that the stock of data creates. As a result, a competing firm equipped with a limited (yet sufficient) amount of recent data can develop more accurate models. This result, coupled with the fact that older datasets may deteriorate models' accuracy, suggests that created business value doesn't scale with the stock of available data unless the firm offloads less relevant data from its data repository. Consequently, a firm's growth policy should incorporate a balance between the stock of historical data and the flow of new data. We complement our theoretical results with an experiment. In the experiment, we empirically measure the loss in the accuracy of a next word prediction model trained on datasets from various time periods. Our empirical measurements confirm the economic significance of the value decline over time. For example, 100MB of text data, after seven years, becomes as valuable as 50MB of current data for the next word prediction task.
翻訳日:2022-03-19 04:01:03 公開日:2022-03-17
# (参考訳) DRAG: プライバシー漏洩画像検出のための動的領域認識GCN [全文訳有]

DRAG: Dynamic Region-Aware GCN for Privacy-Leaking Image Detection ( http://arxiv.org/abs/2203.09121v1 )

ライセンス: CC BY 4.0
Guang Yang, Juan Cao, Qiang Sheng, Peng Qi, Xirong Li, Jintao Li(参考訳) ソーシャルメディア上で画像を共有するという日々の慣行は、プライバシー漏洩の深刻な問題を引き起こす。 この問題に対処するために、プライバシーを侵害する画像検出が最近研究され、プライバシーを漏洩する可能性のある画像を自動的に識別することを目指している。 このタスクの最近の進歩は、事前訓練された物体検出器を通して重要な物体に集中し、それらの相関をモデル化することの利点がある。 しかし、これらの方法には2つの制限がある。 1) シーン,テクスチャ,オブジェクトといった他の重要な要素を,事前訓練された物体検出器の能力を超えて無視する。 2)対象間の相関は固定されるが,すべての画像に対して一定の相関が適切ではない。 この制限を克服するために、オブジェクトや他の重要な要素を含む重要な領域を動的に発見し、各入力画像に対してそれらの相関を適応的にモデル化する動的領域対応グラフ畳み込みネットワーク(DRAG)を提案する。 重要な領域を見つけるために,空間的関連特徴チャネルを複数の地域対応特徴マップにクラスタリングする。 さらに,自己着脱機構との相関を動的にモデル化し,グラフ畳み込みネットワークを用いた領域間の相互作用を探索する。 DRAGは、プライバシーを優先する画像検出のための最大のデータセットで87%の精度を達成した。 さらなるケーススタディでは、物体だけでなく、テクスチャなどの重要な要素を含む重要な領域が見つかった。

The daily practice of sharing images on social media raises a severe issue about privacy leakage. To address the issue, privacy-leaking image detection is studied recently, with the goal to automatically identify images that may leak privacy. Recent advance on this task benefits from focusing on crucial objects via pretrained object detectors and modeling their correlation. However, these methods have two limitations: 1) they neglect other important elements like scenes, textures, and objects beyond the capacity of pretrained object detectors; 2) the correlation among objects is fixed, but a fixed correlation is not appropriate for all the images. To overcome the limitations, we propose the Dynamic Region-Aware Graph Convolutional Network (DRAG) that dynamically finds out crucial regions including objects and other important elements, and models their correlation adaptively for each input image. To find out crucial regions, we cluster spatially-correlated feature channels into several region-aware feature maps. Further, we dynamically model the correlation with the self-attention mechanism and explore the interaction among the regions with a graph convolutional network. The DRAG achieved an accuracy of 87% on the largest dataset for privacy-leaking image detection, which is 10 percentage points higher than the state of the art. The further case study demonstrates that it found out crucial regions containing not only objects but other important elements like textures.
翻訳日:2022-03-19 03:59:47 公開日:2022-03-17
# (参考訳) Conversational Recommendation: グランドAIチャレンジ [全文訳有]

Conversational Recommendation: A Grand AI Challenge ( http://arxiv.org/abs/2203.09126v1 )

ライセンス: CC BY 4.0
Dietmar Jannach and Li Chen(参考訳) アニメーションのアバターは、人間のように見え、話し、ai駆動システムの未来を象徴するビジョンだ。 多くのSF映画を通して、私たちは人間のようにバーチャルな個性に話しかけることに慣れています。 今日、私たちはappleのsiriのようなマシンに話しかけて、天気予報を尋ねています。 しかし、レストランに行くための推薦を求めると、そうしたデバイスの限界はすぐに明らかになる。 彼らは、私たちが何を好むかを知るために会話をしておらず、しばしば推奨するものの説明を提供しておらず、1分前に言ったことを思い出すのに苦労しているかもしれない。 会話推薦システムはこれらの制限に対処することを約束する。 本稿では,このようなシステムを構築するための既存のアプローチを概説する。我々が現在観察している開発,課題のオープン性,会話型レコメンデータの開発がaiの次の大きな課題の1つとなる理由について述べる。

Animated avatars, which look and talk like humans, are iconic visions of the future of AI-powered systems. Through many sci-fi movies we are acquainted with the idea of speaking to such virtual personalities as if they were humans. Today, we talk more and more to machines like Apple's Siri, e.g., to ask them for the weather forecast. However, when asked for recommendations, e.g., for a restaurant to go to, the limitations of such devices quickly become obvious. They do not engage in a conversation to find out what we might prefer, they often do not provide explanations for what they recommend, and they may have difficulties remembering what was said one minute earlier. Conversational recommender systems promise to address these limitations. In this paper, we review existing approaches to build such systems, which developments we observe today, which challenges are still open and why the development of conversational recommenders represents one of the next grand challenges of AI.
翻訳日:2022-03-19 03:46:14 公開日:2022-03-17
# (参考訳) 時間依存、データフロー、競争上の優位性 [全文訳有]

Time Dependency, Data Flow, and Competitive Advantage ( http://arxiv.org/abs/2203.09128v1 )

ライセンス: CC BY 4.0
Ehsan Valavi, Joel Hestness, Marco Iansiti, Newsha Ardalani, Feng Zhu, Karim R. Lakhani(参考訳) データは機械学習ベースの製品やサービスの基本であり、企業、政府、非営利団体、そしてより一般的に社会の外部性のために戦略的と考えられている。 組織(企業、政府機関、プログラム、さらには産業)の価値は、利用可能なデータ量とともにスケールすることが有名である。 しばしばあまり理解されていないのは、有用な組織予測を行う際のデータ価値が広範囲にまたがり、データ特性と基盤となるアルゴリズムの機能であることだ。 本研究では,データの価値が時間とともにどのように変化するか,その変化が文脈やビジネス領域(例えば,歴史・スポーツ・政治の文脈における次の単語予測)にどのように変化するかを検討することを目的とする。 Reddit.comのデータに注目し、さまざまなRedditトピック(Subreddits)で価値の時間依存性を比較します。 この比較は,ユーザ生成テキストデータが会話のアルゴリズム的予測との関係を損なう速度を計測することによって行う。 異なるサブレディットは時間とともに関連性の低下率が異なることを示す。 テキストトピックをさまざまなビジネス分野に関連付けることで、データ価値が崩壊するビジネス分野における競合は、競争優位を得るための戦略を急速に変えると論じる。 データの価値が急速に低下すると、連続的なデータフローへのアクセスは、固定されたデータへのアクセスよりも価値がある。 このような環境では、ユーザエンゲージメントの向上とユーザベースの増大は、競争上の優位性の作成と維持に役立つ。

Data is fundamental to machine learning-based products and services and is considered strategic due to its externalities for businesses, governments, non-profits, and more generally for society. It is renowned that the value of organizations (businesses, government agencies and programs, and even industries) scales with the volume of available data. What is often less appreciated is that the data value in making useful organizational predictions will range widely and is prominently a function of data characteristics and underlying algorithms. In this research, our goal is to study how the value of data changes over time and how this change varies across contexts and business areas (e.g. next word prediction in the context of history, sports, politics). We focus on data from Reddit.com and compare the value's time-dependency across various Reddit topics (Subreddits). We make this comparison by measuring the rate at which user-generated text data loses its relevance to the algorithmic prediction of conversations. We show that different subreddits have different rates of relevance decline over time. Relating the text topics to various business areas of interest, we argue that competing in a business area in which data value decays rapidly alters strategies to acquire competitive advantage. When data value decays rapidly, access to a continuous flow of data will be more valuable than access to a fixed stock of data. In this kind of setting, improving user engagement and increasing user-base help creating and maintaining a competitive advantage.
翻訳日:2022-03-19 03:30:30 公開日:2022-03-17
# (参考訳) 音楽表現のための正負フレームマスクを用いたコントラスト学習 [全文訳有]

Contrastive Learning with Positive-Negative Frame Mask for Music Representation ( http://arxiv.org/abs/2203.09129v1 )

ライセンス: CC BY 4.0
Dong Yao, Zhou Zhao, Shengyu Zhang, Jieming Zhu, Yudong Zhu, Rui Zhang, Xiuqiang He(参考訳) 自己監督学習、特に対照学習は、多くのディープラーニング研究分野の発展に顕著な貢献をした。 近年,音響信号処理分野の研究者がその成功に気付き,コントラスト学習を活用してより良い音楽表現を実現している。 通常、既存のアプローチは、同じ音楽からサンプリングされた2つの歪んだオーディオセグメント間の類似性を最大化する。 言い換えれば、彼らは音楽レベルで意味的合意を保証します。 しかし,これらの粗い手法は,音楽の効果的な表現を学習するためのモデルに有害な,フレームレベルでの刺激的要素やノイズ的要素を無視する。 そこで本研究では,PEMRと略記したコントラスト学習フレームワークに基づく,音楽表現のための正負負のフレームマスクを提案する。 具体的には、pemrには正負のマスク生成モジュールが組み込まれており、トランスフォーマーブロックを利用してログメル分光器でフレームマスクを生成する。 重要成分や感情成分をマスキングすることで,自己増悪と正のサンプルを生成することができる。 我々は,同じ音楽からサンプリングした自己増強陽性/陰性の両方に対応するために,新しいコントラスト学習目標を考案した。 4つの公開データセットで実験を行う。 PEMRで学習した音楽表現の一般化能力と伝達性を示す2つのダウンストリームタスク,音楽分類,カバーソング識別の実験結果について検討した。

Self-supervised learning, especially contrastive learning, has made an outstanding contribution to the development of many deep learning research fields. Recently, researchers in the acoustic signal processing field noticed its success and leveraged contrastive learning for better music representation. Typically, existing approaches maximize the similarity between two distorted audio segments sampled from the same music. In other words, they ensure a semantic agreement at the music level. However, those coarse-grained methods neglect some inessential or noisy elements at the frame level, which may be detrimental to the model to learn the effective representation of music. Towards this end, this paper proposes a novel Positive-nEgative frame mask for Music Representation based on the contrastive learning framework, abbreviated as PEMR. Concretely, PEMR incorporates a Positive-Negative Mask Generation module, which leverages transformer blocks to generate frame masks on the Log-Mel spectrogram. We can generate self-augmented negative and positive samples by masking important components or inessential components, respectively. We devise a novel contrastive learning objective to accommodate both self-augmented positives/negatives sampled from the same music. We conduct experiments on four public datasets. The experimental results of two music-related downstream tasks, music classification, and cover song identification, demonstrate the generalization ability and transferability of music representation learned by PEMR.
翻訳日:2022-03-19 03:16:43 公開日:2022-03-17
# (参考訳) DNNに基づく性能測定による音声の明瞭度予測

Prediction of speech intelligibility with DNN-based performance measures ( http://arxiv.org/abs/2203.09148v1 )

ライセンス: CC BY 4.0
Angel Mario Castro Martinez, Constantin Spille, Jana Ro{\ss}bach, Birger Kollmeier, Bernd T. Meyer(参考訳) 本稿では、ディープニューラルネットワーク(dnn)による音素確率と、これらの確率から単語誤り率を推定する性能尺度を組み合わせた自動音声認識(asr)に基づく音声明瞭度モデルを提案する。 このモデルは、ASR復号ステップとしてテスト中のクリーンな音声参照や単語ラベルを必要としないため、音素後部確率が最も高い単語列が省略される。 8人の通常聴取者から予測および観測された音声受信閾値間のルート平均二乗誤差を用いて評価した。 認識タスクは、ドイツの行列文テストからノイズの多い単語を識別する。 発声材料は、発声形静止雑音から単一話者用マスカまで、異なる変調タイプをカバーする8つのノイズマスカを混合した。 予測性能を単語ラベルを用いた5つの確立されたモデルとASRモデルと比較する。 機能とネットワークの2つの組み合わせがテストされた。 どちらも、特徴レベル(振幅変調フィルタバンクとフィードフォワードネットワーク)の時間情報や、アーキテクチャ(メルスペクトルと時間遅延ディープニューラルネットワーク、TDNN)によってキャプチャされる。 tdnnモデルは、パラメータの数を37倍に削減しながらdnnと同等であり、この最適化により、フォワードパスとして専用の補聴器ハードウェア上の並列ストリームを各フレームの10ms以内に計算することができる。 提案モデルはラベルベースモデルとほぼ同等に動作し,ベースラインモデルよりも精度の高い予測を行う。

This paper presents a speech intelligibility model based on automatic speech recognition (ASR), combining phoneme probabilities from deep neural networks (DNN) and a performance measure that estimates the word error rate from these probabilities. This model does not require the clean speech reference nor the word labels during testing as the ASR decoding step, which finds the most likely sequence of words given phoneme posterior probabilities, is omitted. The model is evaluated via the root-mean-squared error between the predicted and observed speech reception thresholds from eight normal-hearing listeners. The recognition task consists of identifying noisy words from a German matrix sentence test. The speech material was mixed with eight noise maskers covering different modulation types, from speech-shaped stationary noise to a single-talker masker. The prediction performance is compared to five established models and an ASR-model using word labels. Two combinations of features and networks were tested. Both include temporal information either at the feature level (amplitude modulation filterbanks and a feed-forward network) or captured by the architecture (mel-spectrograms and a time-delay deep neural network, TDNN). The TDNN model is on par with the DNN while reducing the number of parameters by a factor of 37; this optimization allows parallel streams on dedicated hearing aid hardware as a forward-pass can be computed within the 10ms of each frame. The proposed model performs almost as well as the label-based model and produces more accurate predictions than the baseline models.
翻訳日:2022-03-19 02:59:31 公開日:2022-03-17
# (参考訳) 文字認識タスクに最適なリジェクション関数 [全文訳有]

Optimal Rejection Function Meets Character Recognition Tasks ( http://arxiv.org/abs/2203.09151v1 )

ライセンス: CC BY 4.0
Xiaotong Ji, Yuchen Zheng, Daiki Suehiro, Seiichi Uchida(参考訳) 本稿では,不明瞭なサンプルを拒否関数で除去する最適な拒絶法を提案する。 この拒絶関数はlwr(learning-with-re jection)の枠組みの下で分類関数と共に訓練される。 lwrのハイライトは、(1)拒絶戦略はヒューリスティックではないが、機械学習理論からの強い背景を持ち、(2)拒絶関数は分類のための特徴空間とは異なる任意の特徴空間で訓練することができる。 後者は、拒絶にもっと適した機能空間を選択できることを示唆している。 LwRのこれまでの研究は理論的な側面にのみ焦点をあてたものの、我々はLwRを実用的なパターン分類タスクに活用することを提案する。 さらに,異なるCNN層の特徴を分類と拒絶に利用することを提案する。 NotMNIST分類とキャラクタ・ノンキャラクタ分類の広範な実験により,提案手法が従来の拒絶手法よりも優れた性能を実現することを示す。

In this paper, we propose an optimal rejection method for rejecting ambiguous samples by a rejection function. This rejection function is trained together with a classification function under the framework of Learning-with-Reject ion (LwR). The highlights of LwR are: (1) the rejection strategy is not heuristic but has a strong background from a machine learning theory, and (2) the rejection function can be trained on an arbitrary feature space which is different from the feature space for classification. The latter suggests we can choose a feature space that is more suitable for rejection. Although the past research on LwR focused only on its theoretical aspect, we propose to utilize LwR for practical pattern classification tasks. Moreover, we propose to use features from different CNN layers for classification and rejection. Our extensive experiments of notMNIST classification and character/non-charac ter classification demonstrate that the proposed method achieves better performance than traditional rejection strategies.
翻訳日:2022-03-19 02:58:22 公開日:2022-03-17
# (参考訳) UWED:正確な3Dシーン表現と完了のための符号なし距離場

UWED: Unsigned Distance Field for Accurate 3D Scene Representation and Completion ( http://arxiv.org/abs/2203.09167v1 )

ライセンス: CC BY 4.0
Jean Pierre Richa and Jean-Emmanuel Deschaud and Fran\c{c}ois Goulette and Nicolas Dalmasso(参考訳) シーンの完了は、シーンの部分的なスキャンから欠落した幾何学を完成させるタスクである。 従来の手法のほとんどは、ニューラルネットワークへの入力として3Dグリッド上のTrncated Signed Distance Function(TSDF)を使用して、範囲データからの暗黙的な表現を計算する。 切り離し極限はあるが、非閉曲面の符号によって引き起こされるあいまいなケースは取り除かない。 その代替として、シーン補完ニューラルネットワークへの入力として、Unsigned Weighted Euclidean Distance (UWED) と呼ばれるUnsigned Distance Function (UDF) を提案する。 UWEDは表面表現としてシンプルで効率的であり、通常のノイズのない任意のノイズのある点雲上で計算することができる。 そこで本研究では,正規格子上の離散化udf値から点雲を抽出する手法を提案する。 rgb-d および lidar センサから収集した屋内および屋外の点群雲のシーン完了タスクにおける異なる sdf と udf を比較し,提案する uwed 関数による完成度の向上を示す。

Scene Completion is the task of completing missing geometry from a partial scan of a scene. The majority of previous methods compute an implicit representation from range data using a Truncated Signed Distance Function (TSDF) on a 3D grid as input to neural networks. The truncation limits but does not remove the ambiguous cases introduced by the sign for non-closed surfaces. As an alternative, we present an Unsigned Distance Function (UDF) called Unsigned Weighted Euclidean Distance (UWED) as input to the scene completion neural networks. UWED is simple and efficient as a surface representation, and can be computed on any noisy point cloud without normals. To obtain the explicit geometry, we present a method for extracting a point cloud from discretized UDF values on a regular grid. We compare different SDFs and UDFs for the scene completion task on indoor and outdoor point clouds collected from RGB-D and LiDAR sensors and show improved completion using the proposed UWED function.
翻訳日:2022-03-19 02:47:05 公開日:2022-03-17
# (参考訳) アクティブラーニングのためのマージンペナルティ付き最寄り隣接分類器 [全文訳有]

Nearest Neighbor Classifier with Margin Penalty for Active Learning ( http://arxiv.org/abs/2203.09174v1 )

ライセンス: CC BY 4.0
Yuan Cao, Zhiqiao Gao, Jie Hu(参考訳) 自然言語処理の分野でディープラーニングが主流となるにつれ、適切な能動的学習手法の必要性は先例のない急進的になりつつある。 隣り合う分類器に基づくアクティブラーニング(AL)手法を提案し,優れた結果を示した。 しかし、既存の隣り合う分類器は互いに排他的なクラスを分類するのに適していない。 その結果、マージン領域における情報サンプルが発見できず、AL性能が損なわれる。 そこで本研究では,NCMAL(Nest Nearest neighbor Classifier with Margin penalty for Active Learning)を提案する。 まず、クラス間で強制的なマージンペナルティが加えられ、クラス間の不一致とクラス内コンパクト性の両方が保証される。 次に,新しいサンプル選択戦略を提案し,マージン領域内で有意義なサンプルを探索する。 提案手法の有効性を実証するため,他の最先端手法を用いたデータセットに対する広範な実験を行った。 実験の結果,全てのベースライン法よりも少ないアノテート標本で良好な結果が得られることがわかった。

As deep learning becomes the mainstream in the field of natural language processing, the need for suitable active learning method are becoming unprecedented urgent. Active Learning (AL) methods based on nearest neighbor classifier are proposed and demonstrated superior results. However, existing nearest neighbor classifier are not suitable for classifying mutual exclusive classes because inter-class discrepancy cannot be assured by nearest neighbor classifiers. As a result, informative samples in the margin area can not be discovered and AL performance are damaged. To this end, we propose a novel Nearest neighbor Classifier with Margin penalty for Active Learning(NCMAL). Firstly, mandatory margin penalty are added between classes, therefore both inter-class discrepancy and intra-class compactness are both assured. Secondly, a novel sample selection strategy are proposed to discover informative samples within the margin area. To demonstrate the effectiveness of the methods, we conduct extensive experiments on for datasets with other state-of-the-art methods. The experimental results demonstrate that our method achieves better results with fewer annotated samples than all baseline methods.
翻訳日:2022-03-19 02:46:05 公開日:2022-03-17
# (参考訳) 熱的位置エンコーディングによる衛星画像時系列の一般化分類 [全文訳有]

Generalized Classification of Satellite Image Time Series with Thermal Positional Encoding ( http://arxiv.org/abs/2203.09175v1 )

ライセンス: CC BY 4.0
Joachim Nyborg, Charlotte Pelletier, Ira Assent(参考訳) 大規模作物の分類はリモートセンシングの核となる課題であり、経済と生態の両方に応用されている。 現在最先端の深層学習法は、自己注意と衛星画像時系列(SITS)を用いて、独自の成長パターンに基づいて作物の分類を行っている。 しかし、既存の手法は、気候の変化による成長期の時間的変化に頑丈でないことから、訓練中に見られない地域へ一般化する。 そこで本研究では,注目型作物分類器を対象とした温度位置エンコーディング(TPE)を提案する。 暦時(例年)に基づく以前の位置符号化とは異なり、TPEは熱時間に基づいており、成長期の平均気温を蓄積して得られる。 作物の生育は熱時間に直接関係するが、カレンダー時間ではないため、tpeは一般化を改善するために異なる地域間の時間的変化に対処する。 学習可能な手法を含む複数のTPE戦略を提案し、一般的な固定位置エンコーディングと比較して結果を改善する。 我々は,4つの異なるヨーロッパ地域をまたがる作物分類タスクにおいて,最先端の一般化結果を得るためのアプローチを実証する。

Large-scale crop type classification is a task at the core of remote sensing efforts with applications of both economic and ecological importance. Current state-of-the-art deep learning methods are based on self-attention and use satellite image time series (SITS) to discriminate crop types based on their unique growth patterns. However, existing methods generalize poorly to regions not seen during training mainly due to not being robust to temporal shifts of the growing season caused by variations in climate. To this end, we propose Thermal Positional Encoding (TPE) for attention-based crop classifiers. Unlike previous positional encoding based on calendar time (e.g. day-of-year), TPE is based on thermal time, which is obtained by accumulating daily average temperatures over the growing season. Since crop growth is directly related to thermal time, but not calendar time, TPE addresses the temporal shifts between different regions to improve generalization. We propose multiple TPE strategies, including learnable methods, to further improve results compared to the common fixed positional encodings. We demonstrate our approach on a crop classification task across four different European regions, where we obtain state-of-the-art generalization results.
翻訳日:2022-03-19 02:04:48 公開日:2022-03-17
# (参考訳) twitterにおける個人雇用状況の多言語検出 [全文訳有]

Multilingual Detection of Personal Employment Status on Twitter ( http://arxiv.org/abs/2203.09178v1 )

ライセンス: CC BY 4.0
Manuel Tonneau, Dhaval Adjodah, Jo\~ao Palotti, Nir Grinberg, Samuel Fraiberger(参考訳) ソーシャルメディア上で個人の雇用状況の開示を検知することは、求職者に適切な空白度、社会的保護、労働市場の流れを測定するための貴重な情報を提供することができる。 しかし,このような個人的開示の特定は,ソーシャルメディアの内容の海における希少性や,それらの記述に使用される言語形式が多様であることから,困難な課題である。 そこで本研究では,極度の階級不均衡の現実的な環境下での3つのアクティブラーニング(AL)戦略を検証し,BERTに基づく分類モデルを用いて,3言語における個人の就業状況(例えば失業)に関する5種類の開示を明らかにする。 その結果, 極端な不均衡条件下であっても, 精度, 記憶率, および結果の多様性において, 同じラベル数の教師付きベースラインと比較して, 少数のalイテレーションで大きく, 大幅な向上が得られることがわかった。 また、AL戦略が他の戦略より一貫して優れていないこともわかりました。 定性的な分析は、ALがBERTの注意機構をコア用語に集中させ、セマンティック拡張の境界を調整し、この動的学習プロセスに対する制御と可視性を提供するための解釈可能なモデルの重要性を強調することを示唆している。

Detecting disclosures of individuals' employment status on social media can provide valuable information to match job seekers with suitable vacancies, offer social protection, or measure labor market flows. However, identifying such personal disclosures is a challenging task due to their rarity in a sea of social media content and the variety of linguistic forms used to describe them. Here, we examine three Active Learning (AL) strategies in real-world settings of extreme class imbalance, and identify five types of disclosures about individuals' employment status (e.g. job loss) in three languages using BERT-based classification models. Our findings show that, even under extreme imbalance settings, a small number of AL iterations is sufficient to obtain large and significant gains in precision, recall, and diversity of results compared to a supervised baseline with the same number of labels. We also find that no AL strategy consistently outperforms the rest. Qualitative analysis suggests that AL helps focus the attention mechanism of BERT on core terms and adjust the boundaries of semantic expansion, highlighting the importance of interpretable models to provide greater control and visibility into this dynamic learning process.
翻訳日:2022-03-19 01:48:27 公開日:2022-03-17
# (参考訳) RoMe: 自然言語生成評価のためのロバストなメトリクス [全文訳有]

RoMe: A Robust Metric for Evaluating Natural Language Generation ( http://arxiv.org/abs/2203.09183v1 )

ライセンス: CC BY 4.0
Md Rashad Al Hasan Rony, Liubov Kovriguina, Debanjan Chaudhuri, Ricardo Usbeck, Jens Lehmann(参考訳) 自然言語生成(NLG)システムの評価は難しい課題である。 まず、メトリックは、生成された仮説が参照のセマンティクスを反映していることを保証する必要がある。 第二に、生成された文の文法的品質を考慮すべきである。 第三に、生成された文の様々な表面形状を扱うのに十分頑丈であるべきである。 したがって、効果的な評価基準を多面的にする必要がある。 本稿では,自然言語理解(言語能力,構文,意味変化)のいくつかの中核的側面を組み込んだ自動評価指標を提案する。 提案する指標であるローマは,木編集距離と文法的受容性を組み合わせた意味的類似性などの言語特性を学習し,自己教師付きニューラルネットワークを用いて生成文の全体的な品質を評価する。 さらに,最先端手法とRoMeの広範囲なロバスト性解析を行う。 実験結果から,複数のNLGタスクを対象としたシステム生成文の評価において,RoMeは最先端の指標よりも人的判断に強い相関関係があることが示唆された。

Evaluating Natural Language Generation (NLG) systems is a challenging task. Firstly, the metric should ensure that the generated hypothesis reflects the reference's semantics. Secondly, it should consider the grammatical quality of the generated sentence. Thirdly, it should be robust enough to handle various surface forms of the generated sentence. Thus, an effective evaluation metric has to be multifaceted. In this paper, we propose an automatic evaluation metric incorporating several core aspects of natural language understanding (language competence, syntactic and semantic variation). Our proposed metric, RoMe, is trained on language features such as semantic similarity combined with tree edit distance and grammatical acceptability, using a self-supervised neural network to assess the overall quality of the generated sentence. Moreover, we perform an extensive robustness analysis of the state-of-the-art methods and RoMe. Empirical results suggest that RoMe has a stronger correlation to human judgment over state-of-the-art metrics in evaluating system-generated sentences across several NLG tasks.
翻訳日:2022-03-19 01:12:35 公開日:2022-03-17
# (参考訳) Eグラフの抽象解釈 [全文訳有]

Abstract Interpretation on E-Graphs ( http://arxiv.org/abs/2203.09191v1 )

ライセンス: CC BY 4.0
Samuel Coward, George A. Constantinides, Theo Drane(参考訳) 最近のe-graphアプリケーションは、表現の具体的意味論をよく考慮しており、同値の概念は表現の具体的解釈に由来する。 しかし、1つ以上の解釈を持つ同値は別の解釈では持たない。 そのような観察は活用できる。 本稿では,e-graph への抽象解釈の適用について検討し,e-graph 内では,抽象領域に付随する格子が e-class に対する自然な解釈を持つことを示す。 この拡張抽象論では、この点を説明するのにInterval Arithmetic (IA) を用いる。

Recent e-graph applications have typically considered concrete semantics of expressions, where the notion of equivalence stems from concrete interpretation of expressions. However, equivalences that hold over one interpretation may not hold in an alternative interpretation. Such an observation can be exploited. We consider the application of abstract interpretation to e-graphs, and show that within an e-graph, the lattice meet operation associated with the abstract domain has a natural interpretation for an e-class, leading to improved precision in over-approximation. In this extended abstract, we use Interval Arithmetic (IA) to illustrate this point.
翻訳日:2022-03-19 00:58:18 公開日:2022-03-17
# (参考訳) SoK:グラフ構造化データの差分プライバシー [全文訳有]

SoK: Differential Privacy on Graph-Structured Data ( http://arxiv.org/abs/2203.09205v1 )

ライセンス: CC BY 4.0
Tamara T. Mueller, Dmitrii Usynin, Johannes C. Paetzold, Daniel Rueckert, and Georgios Kaissis(参考訳) 本研究では,グラフ構造化データのコンテキストにおける差分プライバシー(DP)の適用について検討する。 本稿では,グラフニューラルネットワーク(GNN)を含むグラフベースデータにおけるDPの定式化とその関連統計,および機械学習について論じる。 グラフ構造化データの文脈におけるDPの定式化は、個々のデータポイントが相互接続されているため困難である。 この接続は、差分プライベート学習における個人のプライバシー損失の計算を複雑にする。 この問題は、グラフ設定におけるdpの定式化が確立されていないことで悪化する。 この問題はGNNの領域にまで拡張され、グラフ構造化データ上のプライベート機械学習が困難なタスクとなる。 事前の体系化作業の欠如は、プライバシーの観点からグラフベースの学習を研究する動機となった。 本稿では,グラフ上のdpの異なる定式化を体系化し,gnnドメインを含む課題と有望な応用について論じる。 我々は、グラフ解析タスクとグラフ学習タスクをGNNと比較し、分離する。 最後に,この領域におけるさらなる研究に向けたオープン質問と潜在的方向性に関する議論を締めくくった。

In this work, we study the applications of differential privacy (DP) in the context of graph-structured data. We discuss the formulations of DP applicable to the publication of graphs and their associated statistics as well as machine learning on graph-based data, including graph neural networks (GNNs). The formulation of DP in the context of graph-structured data is difficult, as individual data points are interconnected (often non-linearly or sparsely). This connectivity complicates the computation of individual privacy loss in differentially private learning. The problem is exacerbated by an absence of a single, well-established formulation of DP in graph settings. This issue extends to the domain of GNNs, rendering private machine learning on graph-structured data a challenging task. A lack of prior systematisation work motivated us to study graph-based learning from a privacy perspective. In this work, we systematise different formulations of DP on graphs, discuss challenges and promising applications, including the GNN domain. We compare and separate works into graph analysis tasks and graph learning tasks with GNNs. Finally, we conclude our work with a discussion of open questions and potential directions for further research in this area.
翻訳日:2022-03-19 00:54:23 公開日:2022-03-17
# (参考訳) ビデオ復元のためのニューラル圧縮に基づく特徴学習

Neural Compression-Based Feature Learning for Video Restoration ( http://arxiv.org/abs/2203.09208v1 )

ライセンス: CC BY 4.0
Cong Huang and Jiahao Li and Bin Li and Dong Liu and Yan Lu(参考訳) 時間的特徴を効率的に活用する方法は、ビデオ修復にとって不可欠だが難しい。 時間的特徴は、通常、様々なノイズと非相関な情報を含み、現在のフレームの復元を妨げる可能性がある。 本稿では,映像復元を支援する学習用ノイズロバスト特徴表現を提案する。 私たちは、神経コーデックが自然なデノイザーであることにインスパイアされています。 ニューラルコーデックでは、予測が難しいがコストがかかるノイズや相関のないコンテンツはビットレートの節約のために破棄される傾向がある。 そこで我々は,ノイズをフィルタリングし,最も有用な情報を映像復元機能に保持するニューラル圧縮モジュールを設計した。 雑音に対するロバスト性を実現するために, 圧縮モジュールは空間チャネル毎の量子化機構を採用し, 潜在位置毎の量子化ステップサイズを適応的に決定する。 実験により,本手法はビデオ復調性能を大幅に向上し,0.23倍のFLOPでベーシックVSR++よりも0.13dB向上できることがわかった。 一方,本手法では,ビデオデレーシングとデヘイジングのsota結果も取得する。

How to efficiently utilize the temporal features is crucial, yet challenging, for video restoration. The temporal features usually contain various noisy and uncorrelated information, and they may interfere with the restoration of the current frame. This paper proposes learning noise-robust feature representations to help video restoration. We are inspired by that the neural codec is a natural denoiser. In neural codec, the noisy and uncorrelated contents which are hard to predict but cost lots of bits are more inclined to be discarded for bitrate saving. Therefore, we design a neural compression module to filter the noise and keep the most useful information in features for video restoration. To achieve robustness to noise, our compression module adopts a spatial-channel-wise quantization mechanism to adaptively determine the quantization step size for each position in the latent. Experiments show that our method can significantly boost the performance on video denoising, where we obtain 0.13 dB improvement over BasicVSR++ with only 0.23x FLOPs. Meanwhile, our method also obtains SOTA results on video deraining and dehazing.
翻訳日:2022-03-19 00:29:03 公開日:2022-03-17
# (参考訳) HSC4D:ウェアラブルIMUとLiDARを用いた大規模屋外空間における人間中心4Dシーンキャプチャ [全文訳有]

HSC4D: Human-centered 4D Scene Capture in Large-scale Indoor-outdoor Space Using Wearable IMUs and LiDAR ( http://arxiv.org/abs/2203.09215v1 )

ライセンス: CC BY 4.0
Yudi Dai, Yitai Lin, Chenglu Wen, Siqi Shen, Lan Xu, Jingyi Yu, Yuexin Ma, Cheng Wang(参考訳) HSC4D(Human-centered 4D Scene Capture)は、大規模屋内シーン、多様な人間の動き、人間と環境との豊かな相互作用を含む、動的デジタル世界を正確かつ効率的に作成する。 ボディマウントのimusとlidarのみを使用して、hsc4dは外部機器の制約なくスペースフリーであり、プリビルトマップなしでは地図フリーである。 IMUは人間のポーズをキャプチャできるが、常に長期使用のためにドリフトするのに対し、LiDARはグローバルなローカライゼーションには適しているが、局所的な位置と向きは粗いため、HSC4Dは両センサーを共同最適化により補完し、長期的なキャプチャーのための有望な結果を達成する。 人間と環境の関係も研究され、対話をよりリアルにする。 ar、vr、ロボット、自動運転など、多くのダウンストリームタスクを容易にするために、3つの大きなシーン(1k-5k$m^2$)を含むデータセットを提案する。 各種シナリオ(クライミングジム,多階建てビル,斜面など)と人間活動への挑戦(エクササイズ,上り下り階段,登山など)は,HSC4Dの有効性と一般化能力を示している。 データセットとコードはhttps://github.com/c limbingdaily/hsc4dで入手できる。

We propose Human-centered 4D Scene Capture (HSC4D) to accurately and efficiently create a dynamic digital world, containing large-scale indoor-outdoor scenes, diverse human motions, and rich interactions between humans and environments. Using only body-mounted IMUs and LiDAR, HSC4D is space-free without any external devices' constraints and map-free without pre-built maps. Considering that IMUs can capture human poses but always drift for long-period use, while LiDAR is stable for global localization but rough for local positions and orientations, HSC4D makes both sensors complement each other by a joint optimization and achieves promising results for long-term capture. Relationships between humans and environments are also explored to make their interaction more realistic. To facilitate many down-stream tasks, like AR, VR, robots, autonomous driving, etc., we propose a dataset containing three large scenes (1k-5k $m^2$) with accurate dynamic human motions and locations. Diverse scenarios (climbing gym, multi-story building, slope, etc.) and challenging human activities (exercising, walking up/down stairs, climbing, etc.) demonstrate the effectiveness and the generalization ability of HSC4D. The dataset and code is available at https://github.com/c limbingdaily/HSC4D.
翻訳日:2022-03-19 00:28:07 公開日:2022-03-17
# (参考訳) 逆学習CNNの特性について [全文訳有]

On the Properties of Adversarially-Traine d CNNs ( http://arxiv.org/abs/2203.09243v1 )

ライセンス: CC BY 4.0
Mattia Carletti, Matteo Terzi, Gian Antonio Susto(参考訳) 敵のトレーニングは、現代のニューラルネットワークアーキテクチャにおける敵の例に対して堅牢性を強制する効果的な訓練パラダイムであることが証明された。 多くの努力にもかかわらず、逆行訓練の有効性を支える基本原則の説明は限られており、Deep Learningコミュニティで広く受け入れられるには程遠い。 本稿では,敵対的学習モデルの驚くべき特性について述べるとともに,攻撃に対するロバスト性が実現されるメカニズムに光を当てる。 さらに,先行研究では議論されなかったこれらのモデルに影響を及ぼす制約や障害モードについても強調する。 我々は、幅広いアーキテクチャとデータセットを広範囲に分析し、ロバストモデルと自然モデルとの深い比較を行う。

Adversarial Training has proved to be an effective training paradigm to enforce robustness against adversarial examples in modern neural network architectures. Despite many efforts, explanations of the foundational principles underpinning the effectiveness of Adversarial Training are limited and far from being widely accepted by the Deep Learning community. In this paper, we describe surprising properties of adversarially-traine d models, shedding light on mechanisms through which robustness against adversarial attacks is implemented. Moreover, we highlight limitations and failure modes affecting these models that were not discussed by prior works. We conduct extensive analyses on a wide range of architectures and datasets, performing a deep comparison between robust and natural models.
翻訳日:2022-03-19 00:14:30 公開日:2022-03-17
# (参考訳) 人工・生物汎用知能のための対称性に基づく表現 [全文訳有]

Symmetry-Based Representations for Artificial and Biological General Intelligence ( http://arxiv.org/abs/2203.09250v1 )

ライセンス: CC BY 4.0
Irina Higgins, S\'ebastien Racani\`ere, Danilo Rezende(参考訳) 生物学的知性は、データ効率、一般化、転送可能なスキル獲得を通じて、さまざまな状況において複雑な行動を生み出す能力において際立っている。 これを実現するためには「良い」感覚表現の学習が重要であると考えられているが、よい表現がどのようなものかについては、ほとんど合意がない。 このレビュー記事では、対称性変換は、何がよい表現となるかの探索を導く基本的な原則であると主張するつもりです。 系のいくつかの側面に影響を及ぼす変換(対称性)が存在し、保存量との関係は現代の物理学の中心となり、より統一された理論の枠組みと新しい粒子の存在を予測する能力さえもももたらされる。 近年、対称性は機械学習にも注目され始めており、生物学的知性によって生み出される複雑な振る舞いを模倣するデータ効率と汎用性が向上している。 最後に、脳内での表現学習における対称性変換の重要性に関する最初のデモンストレーションが神経科学で始まっている。 同時に、これらの分野に対称性がもたらす圧倒的なポジティブな影響は、それらは宇宙の構造を決定づけ、自然のタスクの性質を制約し、生物と人工知能の両方を形作る重要な一般的な枠組みであることを示している。

Biological intelligence is remarkable in its ability to produce complex behaviour in many diverse situations through data efficient, generalisable and transferable skill acquisition. It is believed that learning "good" sensory representations is important for enabling this, however there is little agreement as to what a good representation should look like. In this review article we are going to argue that symmetry transformations are a fundamental principle that can guide our search for what makes a good representation. The idea that there exist transformations (symmetries) that affect some aspects of the system but not others, and their relationship to conserved quantities has become central in modern physics, resulting in a more unified theoretical framework and even ability to predict the existence of new particles. Recently, symmetries have started to gain prominence in machine learning too, resulting in more data efficient and generalisable algorithms that can mimic some of the complex behaviours produced by biological intelligence. Finally, first demonstrations of the importance of symmetry transformations for representation learning in the brain are starting to arise in neuroscience. Taken together, the overwhelming positive effect that symmetries bring to these disciplines suggest that they may be an important general framework that determines the structure of the universe, constrains the nature of natural tasks and consequently shapes both biological and artificial intelligence.
翻訳日:2022-03-18 23:58:16 公開日:2022-03-17
# (参考訳) Rie-SNEによるリーマンデータの可視化 [全文訳有]

Visualizing Riemannian data with Rie-SNE ( http://arxiv.org/abs/2203.09253v1 )

ライセンス: CC BY 4.0
Andri Bergsson, S{\o}ren Hauberg(参考訳) 多様体上に存在するデータの忠実な可視化は、データの平坦な平面ビューを生成する際に基礎となる幾何学を考慮に入れなければならない。 本稿では,古典確率的近傍埋め込み(SNE)アルゴリズムを一般リーマン多様体のデータに拡張する。 標準ガウス予想をリーマン拡散対応に置き換え、リーマン距離と体積の計算へのアクセスのみを必要とする効率的な近似を提案する。 このアプローチは、例えば高次元球面から低次元球面まで、ある多様体から別の多様体へデータをマッピングすることを可能にする。

Faithful visualizations of data residing on manifolds must take the underlying geometry into account when producing a flat planar view of the data. In this paper, we extend the classic stochastic neighbor embedding (SNE) algorithm to data on general Riemannian manifolds. We replace standard Gaussian assumptions with Riemannian diffusion counterparts and propose an efficient approximation that only requires access to calculations of Riemannian distances and volumes. We demonstrate that the approach also allows for mapping data from one manifold to another, e.g. from a high-dimensional sphere to a low-dimensional one.
翻訳日:2022-03-18 23:28:00 公開日:2022-03-17
# (参考訳) グラフニューラルネットワークにおける説明可能性:実験的検討 [全文訳有]

Explainability in Graph Neural Networks: An Experimental Survey ( http://arxiv.org/abs/2203.09258v1 )

ライセンス: CC BY 4.0
Peibo Li, Yixing Yang, Maurice Pagnucco, Yang Song(参考訳) グラフニューラルネットワーク(GNN)は、様々なアプリケーション領域でグラフ表現学習のために広く開発されている。 しかしながら、他のすべてのニューラルネットワークモデルと同様に、GNNはブラックボックスの問題に悩まされる。 この問題を解決するために、GNNによる意思決定を説明するために、いくつかのGNN説明可能性法が提案されている。 本稿では,現在最先端のGNN説明可能性手法とその評価方法について概説する。 さらに,新たな評価基準を提案し,実世界のデータセット上でのGNN説明可能性手法の比較実験を行った。 また,今後のGNN説明可能性についても提案する。

Graph neural networks (GNNs) have been extensively developed for graph representation learning in various application domains. However, similar to all other neural networks models, GNNs suffer from the black-box problem as people cannot understand the mechanism underlying them. To solve this problem, several GNN explainability methods have been proposed to explain the decisions made by GNNs. In this survey, we give an overview of the state-of-the-art GNN explainability methods and how they are evaluated. Furthermore, we propose a new evaluation metric and conduct thorough experiments to compare GNN explainability methods on real world datasets. We also suggest future directions for GNN explainability.
翻訳日:2022-03-18 23:17:01 公開日:2022-03-17
# (参考訳) コントラスト学習の混合:時系列の自己監督型表現学習 [全文訳有]

Mixing Up Contrastive Learning: Self-Supervised Representation Learning for Time Series ( http://arxiv.org/abs/2203.09270v1 )

ライセンス: CC BY 4.0
Kristoffer Wickstr{\o}m and Michael Kampffmeyer and Karl {\O}yvind Mikalsen and Robert Jenssen(参考訳) ラベル付きデータの欠如は、時系列データから有用な表現を学ぶ上で重要な課題である。 しかし、高品質な表現を生成できる教師なしの表現フレームワークは大きな価値があるかもしれない。 これは、大量のデータがあるがラベリングは費用がかかり、時間がかかる医療アプリケーションにとって特に有益である転送学習を可能にするための鍵である。 ラベル平滑化の観点から動機付けられた教師なしコントラスト学習フレームワークを提案する。 提案手法では,2つのデータサンプルと混合成分を混合して新たなサンプルを生成するデータ拡張スキームを自然に活用する,新しいコントラスト損失を用いる。 提案フレームワークの課題は,損失関数のソフトターゲットとして利用される混合成分の予測である。 実験は、非変量時系列と多変量時系列の両方における他の表現学習アプローチと比較して、フレームワークの優れた性能を示し、臨床時系列における伝達学習の利点を示す。

The lack of labeled data is a key challenge for learning useful representation from time series data. However, an unsupervised representation framework that is capable of producing high quality representations could be of great value. It is key to enabling transfer learning, which is especially beneficial for medical applications, where there is an abundance of data but labeling is costly and time consuming. We propose an unsupervised contrastive learning framework that is motivated from the perspective of label smoothing. The proposed approach uses a novel contrastive loss that naturally exploits a data augmentation scheme in which new samples are generated by mixing two data samples with a mixing component. The task in the proposed framework is to predict the mixing component, which is utilized as soft targets in the loss function. Experiments demonstrate the framework's superior performance compared to other representation learning approaches on both univariate and multivariate time series and illustrate its benefits for transfer learning for clinical time series.
翻訳日:2022-03-18 23:01:49 公開日:2022-03-17
# (参考訳) 確率・プライベート非凸外乱PCA

Stochastic and Private Nonconvex Outlier-Robust PCA ( http://arxiv.org/abs/2203.09276v1 )

ライセンス: CC BY 4.0
Tyler Maunu, Chenyu Yu, Gilad Lerman(参考訳) 理論的に保証されたPCAの確率的手法を開発した。 外乱PCAは、外乱で破損したデータセットから下層の低次元線型部分空間を求める。 グラスマン多様体上の確率的測地線勾配降下を含む我々の手法が、新しい収束解析法の開発を通じて、様々な方法で基礎となる部分空間を収束させ、回復することを示すことができる。 本手法の主な応用は, 確率勾配法においてガウス雑音機構を用いた外乱pcaに対する効果的な微分プライベートアルゴリズムである。 本結果は, 差分的にプライベートな条件下でこの問題を解決するために, 非凸法と他の凸法との利点を強調した。 合成およびスタイリゼーションデータに関する実験は、これらの結果を検証する。

We develop theoretically guaranteed stochastic methods for outlier-robust PCA. Outlier-robust PCA seeks an underlying low-dimensional linear subspace from a dataset that is corrupted with outliers. We are able to show that our methods, which involve stochastic geodesic gradient descent over the Grassmannian manifold, converge and recover an underlying subspace in various regimes through the development of a novel convergence analysis. The main application of this method is an effective differentially private algorithm for outlier-robust PCA that uses a Gaussian noise mechanism within the stochastic gradient method. Our results emphasize the advantages of the nonconvex methods over another convex approach to solving this problem in the differentially private setting. Experiments on synthetic and stylized data verify these results.
翻訳日:2022-03-18 22:48:53 公開日:2022-03-17
# (参考訳) エンティティアライメントのための知識グラフ埋め込み手法:実験的レビュー

Knowledge Graph Embedding Methods for Entity Alignment: An Experimental Review ( http://arxiv.org/abs/2203.09280v1 )

ライセンス: CC BY 4.0
Nikolaos Fanourakis, Vasilis Efthymiou, Dimitris Kotzinos, Vassilis Christophides(参考訳) 近年,様々な分野における知識グラフ(kg)の普及が見られ,質問応答やレコメンデーションといったアプリケーションのサポートが目指されている。 異なるKGからの知識を統合するときの頻繁な課題は、どのサブグラフが同じ現実世界の実体を指すかを見つけることである。 近年,元のKGの類似性を保ったエンティティのベクトル空間表現を学習する,エンティティアライメントタスクに埋め込み手法が用いられている。 KGの実体の事実的(属性ベース)と構造的情報(関係ベース)の両方を活用する、さまざまな教師付き、教師なし、半教師付き手法が提案されている。 しかし,実世界のkgsの性能指標やkg特性により,実世界のkgsの長所と短所の定量的評価は文献から欠落している。 本研究では,統計的に健全な手法に基づいて,エンティティアライメントのための一般的な埋め込み手法の最初のメタレベル分析を行う。 そこで本研究では,KGsによって抽出された様々なメタ機能と異なる埋め込み手法の統計的に有意な相関関係を明らかにし,その有効性に応じて統計的に有意なランク付けを行った。 最後に,手法の有効性と効率の観点から,興味深いトレードオフについて検討する。

In recent years, we have witnessed the proliferation of knowledge graphs (KG) in various domains, aiming to support applications like question answering, recommendations, etc. A frequent task when integrating knowledge from different KGs is to find which subgraphs refer to the same real-world entity. Recently, embedding methods have been used for entity alignment tasks, that learn a vector-space representation of entities which preserves their similarity in the original KGs. A wide variety of supervised, unsupervised, and semi-supervised methods have been proposed that exploit both factual (attribute based) and structural information (relation based) of entities in the KGs. Still, a quantitative assessment of their strengths and weaknesses in real-world KGs according to different performance metrics and KG characteristics is missing from the literature. In this work, we conduct the first meta-level analysis of popular embedding methods for entity alignment, based on a statistically sound methodology. Our analysis reveals statistically significant correlations of different embedding methods with various meta-features extracted by KGs and rank them in a statistically significant way according to their effectiveness across all real-world KGs of our testbed. Finally, we study interesting trade-offs in terms of methods' effectiveness and efficiency.
翻訳日:2022-03-18 22:47:56 公開日:2022-03-17
# (参考訳) 脳ダイナミクスの時空間多重モデルにおけるコミュニティのランク付け

Ranking of Communities in Multiplex Spatiotemporal Models of Brain Dynamics ( http://arxiv.org/abs/2203.09281v1 )

ライセンス: CC BY 4.0
James B. Wilsenach, Catherine E. Warnaby, Charlotte M. Deane and Gesine D. Reinert(参考訳) 比較的新しい分野として、ネットワーク神経科学は、堅牢な脳モデルを構築するために、多くの連続した実験や長い記録で平均された脳の集合的行動に焦点を当てる傾向にある。 これらのモデルは、正常な脳機能の結果として自然に起こる脳の動的状態変化を説明する能力に制限がある。 神経画像時系列データに基づいて訓練された隠れマルコフモデル(hmm)は、訓練が容易であるが完全なパラメータ化や解析が困難である動的モデルを生成する方法として出現した。 我々は、これらのニューラルネットワークHMMを、隠れマルコフグラフモデル(HMGM)と呼ぶ多重脳状態グラフモデルとして解釈する。 この解釈により、ネットワーク分析技術の完全なレパートリーを用いて動的脳活動を分析することができる。 さらに、最大エントロピーの原理に基づいて、外部データがない場合にHMMハイパーパラメータを選択するための一般的な方法を提案し、これを多重化モデルにおけるレイヤー数を選択するために利用する。 モデルの基礎となるマルコフ構造を利用した時空間ランダム歩行法を用いて,脳領域の重要なコミュニティを決定する新しいツールを開発した。 実際のマルチオブジェクトfMRIデータの解析により、静止時の脳のモジュラー処理仮説を裏付ける新たな結果が得られ、また、動的脳状態コミュニティと機能的重複の新たな証拠となる。 我々の分析パイプラインは、新しい行動や条件下での脳の動的ネットワーク活動を特徴づける方法を提供する。

As a relatively new field, network neuroscience has tended to focus on aggregate behaviours of the brain averaged over many successive experiments or over long recordings in order to construct robust brain models. These models are limited in their ability to explain dynamic state changes in the brain which occurs spontaneously as a result of normal brain function. Hidden Markov Models (HMMs) trained on neuroimaging time series data have since arisen as a method to produce dynamical models that are easy to train but can be difficult to fully parametrise or analyse. We propose an interpretation of these neural HMMs as multiplex brain state graph models we term Hidden Markov Graph Models (HMGMs). This interpretation allows for dynamic brain activity to be analysed using the full repertoire of network analysis techniques. Furthermore, we propose a general method for selecting HMM hyperparameters in the absence of external data, based on the principle of maximum entropy, and use this to select the number of layers in the multiplex model. We produce a new tool for determining important communities of brain regions using a spatiotemporal random walk-based procedure that takes advantage of the underlying Markov structure of the model. Our analysis of real multi-subject fMRI data provides new results that corroborate the modular processing hypothesis of the brain at rest as well as contributing new evidence of functional overlap between and within dynamic brain state communities. Our analysis pipeline provides a way to characterise dynamic network activity of the brain under novel behaviours or conditions.
翻訳日:2022-03-18 22:46:16 公開日:2022-03-17
# (参考訳) 1つのCLIPにおけるGANのワンショット適応 [全文訳有]

One-Shot Adaptation of GAN in Just One CLIP ( http://arxiv.org/abs/2203.09301v1 )

ライセンス: CC BY 4.0
Gihyun Kwon, Jong Chul Ye(参考訳) 新たなドメインのイメージを生成するために、事前学習したジェネレータを少数のターゲットイメージで微調整する研究が近年行われている。 残念なことに、これらの手法は単一のターゲットイメージで微調整された場合、過度な適合や不適合に悩まされることが多い。 そこで本研究では,CLIP空間操作を統一した単一ショットGAN適応方式を提案する。 具体的には、CLIP誘導潜在最適化を用いたソースジェネレータの参照画像検索と、ソースと適応ジェネレータ間のCLIP空間の整合性を強制する新しい損失関数によるジェネレータの微調整という2段階のトレーニング手法を用いる。 ソースジェネレータに関して空間的に整合性のあるサンプルを生成するために適応モデルをさらに改良するため,CLIP空間におけるパッチワイズ関係に対するコントラスト正規化を提案する。 実験結果から, 対象テクスチャを用いて多様な出力を生成し, 質的, 定量的にベースラインモデルを上回った。 さらに,我々のCLIP空間操作戦略により,より効率的な属性編集が可能となることを示す。

There are many recent research efforts to fine-tune a pre-trained generator with a few target images to generate images of a novel domain. Unfortunately, these methods often suffer from overfitting or under-fitting when fine-tuned with a single target image. To address this, here we present a novel single-shot GAN adaptation method through unified CLIP space manipulations. Specifically, our model employs a two-step training strategy: reference image search in the source generator using a CLIP-guided latent optimization, followed by generator fine-tuning with a novel loss function that imposes CLIP space consistency between the source and adapted generators. To further improve the adapted model to produce spatially consistent samples with respect to the source generator, we also propose contrastive regularization for patchwise relationships in the CLIP space. Experimental results show that our model generates diverse outputs with the target texture and outperforms the baseline models both qualitatively and quantitatively. Furthermore, we show that our CLIP space manipulation strategy allows more effective attribute editing.
翻訳日:2022-03-18 22:45:08 公開日:2022-03-17
# (参考訳) 階層的リカレントネットワークを用いた複数スケールのビデオ予測 [全文訳有]

Video Prediction at Multiple Scales with Hierarchical Recurrent Networks ( http://arxiv.org/abs/2203.09303v1 )

ライセンス: CC BY 4.0
Ani Karapetyan, Angel Villar-Corrales, Andreas Boltres and Sven Behnke(参考訳) 自律システムは、現在の環境を理解するだけでなく、例えば撮影されたカメラフレームに基づいて、過去の状態に条件付けられた将来のアクションを予測できる必要がある。 あるタスクでは、将来的なビデオフレームのような詳細な予測が必要であるが、他のタスクではより抽象的な表現をより長い時間軸で予測することも有益である。 しかし、既存のビデオ予測モデルは、短い時間ホリゾンの詳細な結果を予測することに重点を置いているため、ロボットの知覚や空間的推論の用途は限られている。 異なる時間スケールで異なる粒度の将来の結果を同時に予測できる新しいビデオ予測モデルであるMulti-Scale Hierarchical Prediction (MSPred)を提案する。 空間的および時間的ダウンサンプリングを組み合わせることで、mspredは人間のポーズや物体の位置といった抽象的な表現を長時間の地平線上で効率的に予測することができる。 実験では,提案モデルが将来的な映像フレームや,ビンピッキングシーンやアクション認識データセットなど,様々なシナリオにおける他の表現(キーポイントや位置など)を正確に予測し,映像フレームの予測に対する一般的なアプローチを一貫して上回ることを示す。 さらに, MSPredにおける異なるモジュールの重要性と設計選択について, アブレーション研究を行った。 再現性のある研究の精神において、我々はディープラーニングに基づくビデオ予測のための一般的なフレームワークであるVP-Suiteをオープンソース化し、その結果を再現するための事前学習モデルを作成しました。

Autonomous systems not only need to understand their current environment, but should also be able to predict future actions conditioned on past states, for instance based on captured camera frames. For certain tasks, detailed predictions such as future video frames are required in the near future, whereas for others it is beneficial to also predict more abstract representations for longer time horizons. However, existing video prediction models mainly focus on forecasting detailed possible outcomes for short time-horizons, hence being of limited use for robot perception and spatial reasoning. We propose Multi-Scale Hierarchical Prediction (MSPred), a novel video prediction model able to forecast future possible outcomes of different levels of granularity at different time-scales simultaneously. By combining spatial and temporal downsampling, MSPred is able to efficiently predict abstract representations such as human poses or object locations over long time horizons, while still maintaining a competitive performance for video frame prediction. In our experiments, we demonstrate that our proposed model accurately predicts future video frames as well as other representations (e.g. keypoints or positions) on various scenarios, including bin-picking scenes or action recognition datasets, consistently outperforming popular approaches for video frame prediction. Furthermore, we conduct an ablation study to investigate the importance of the different modules and design choices in MSPred. In the spirit of reproducible research, we open-source VP-Suite, a general framework for deep-learning-based video prediction, as well as pretrained models to reproduce our results.
翻訳日:2022-03-18 22:22:06 公開日:2022-03-17
# (参考訳) EVA2.0: 大規模事前学習によるオープンドメイン中国語対話システムの検討 [全文訳有]

EVA2.0: Investigating Open-Domain Chinese Dialogue Systems with Large-Scale Pre-Training ( http://arxiv.org/abs/2203.09313v1 )

ライセンス: CC BY 4.0
Yuxian Gu, Jiaxin Wen, Hao Sun, Yi Song, Pei Ke, Chujie Zheng, Zheng Zhang, Jianzhu Yao, Xiaoyan Zhu, Jie Tang, Minlie Huang(参考訳) 大規模事前学習はオープンドメイン対話システムの構築において顕著な性能を示した。 しかし、従来の研究は主に、特に中国のシナリオにおいて、強力な人間のようなチャットボットに向けた重要な要素の議論を無視して、リリースされた対話モデルの会話性能の提示と評価に重点を置いていた。 本稿では,データ品質管理,モデルアーキテクチャ設計,トレーニングアプローチ,デコード戦略など,未検討の要素を調査するための広範な実験を行う。 提案するEVA2.0は,280億のパラメータを持つ大規模事前学習型中国語対話モデルであり,我々のモデルとコードを公開している。 私たちの知る限り、eva2.0は中国最大のオープンソースの対話モデルです。 自動評価と人間評価は、我々のモデルが他のオープンソースモデルを大きく上回っていることを示している。 また,いくつかの障害事例を提示し,今後の方向性を示すことで,この作業の限界についても論じる。

Large-scale pre-training has shown remarkable performance in building open-domain dialogue systems. However, previous works mainly focus on showing and evaluating the conversational performance of the released dialogue model, ignoring the discussion of some key factors towards a powerful human-like chatbot, especially in Chinese scenarios. In this paper, we conduct extensive experiments to investigate these under-explored factors, including data quality control, model architecture designs, training approaches, and decoding strategies. We propose EVA2.0, a large-scale pre-trained open-domain Chinese dialogue model with 2.8 billion parameters, and make our models and code publicly available. To our knowledge, EVA2.0 is the largest open-source Chinese dialogue model. Automatic and human evaluations show that our model significantly outperforms other open-source counterparts. We also discuss the limitations of this work by presenting some failure cases and pose some future directions.
翻訳日:2022-03-18 22:07:19 公開日:2022-03-17
# (参考訳) 汎用画像合成のための変調コントラスト [全文訳有]

Modulated Contrast for Versatile Image Synthesis ( http://arxiv.org/abs/2203.09333v1 )

ライセンス: CC BY 4.0
Fangneng Zhan, Jiahui Zhang, Yingchen Yu, Rongliang Wu, Shijian Lu(参考訳) 画像間の類似性を認識することは、様々な視覚生成タスクの根底にある長年の根本的問題である。 優先的なアプローチは、点方向の絶対偏差を計算することによって画像間距離を測定するが、これはインスタンス分布の中央値を推定し、生成された画像のぼやけやアーティファクトを引き起こす傾向がある。 本稿では,画像コントラストを導入した多面体間距離の知覚のための校正指標であるMoNCEについて述べる。 類似性によらず無差別にアンカーから負のサンプルをプッシュするバニラコントラストと異なり,アンカーとの類似性に応じて適応的に負のサンプルの押し力を再強調する手法を提案する。 複数のパッチレベルのコントラスト対象が画像距離測定に関与しているため、複数のコントラスト対象に対して協調的に負サンプルのプッシュ力を変調するMoNCEの最適輸送を導入する。 複数の画像翻訳タスクに関する広範囲な実験により、提案手法が様々な普及度指標を実質的に上回っていることが示された。 コードはhttps://github.com/f nzhan/monceで入手できる。

Perceiving the similarity between images has been a long-standing and fundamental problem underlying various visual generation tasks. Predominant approaches measure the inter-image distance by computing pointwise absolute deviations, which tends to estimate the median of instance distributions and leads to blurs and artifacts in the generated images. This paper presents MoNCE, a versatile metric that introduces image contrast to learn a calibrated metric for the perception of multifaceted inter-image distances. Unlike vanilla contrast which indiscriminately pushes negative samples from the anchor regardless of their similarity, we propose to re-weight the pushing force of negative samples adaptively according to their similarity to the anchor, which facilitates the contrastive learning from informative negative samples. Since multiple patch-level contrastive objectives are involved in image distance measurement, we introduce optimal transport in MoNCE to modulate the pushing force of negative samples collaboratively across multiple contrastive objectives. Extensive experiments over multiple image translation tasks show that the proposed MoNCE outperforms various prevailing metrics substantially. The code is available at https://github.com/f nzhan/MoNCE.
翻訳日:2022-03-18 21:49:38 公開日:2022-03-17
# (参考訳) 単一粗点監督下での物体定位

Object Localization under Single Coarse Point Supervision ( http://arxiv.org/abs/2203.09338v1 )

ライセンス: CC BY 4.0
Xuehui Yu, Pengfei Chen, Di Wu, Najmul Hassan, Guorong Li, Junchi Yan, Humphrey Shi, Qixiang Ye, Zhenjun Han(参考訳) 低コストデータアノテーション下で高性能オブジェクトセンシングを追求するpoint-based object localization(pol)が注目されている。 しかし、ポイントアノテーションモードは必然的に注釈付点の不一致に対して意味的分散を導入する。 既存のPOLメソッドは、定義が難しい正確なキーポイントアノテーションに強く反応します。 本研究では,粗点アノテーションを用いたpol法を提案し,正確な鍵点から自由点までの監視信号を緩和する。 この目的のために,アルゴリズムの観点から意味的ばらつきを緩和する最初の試みとして,最善の知識を得るための粗点リファインメント(cpr)手法を提案する。 CPRは、ポイントバッグを構築し、セマンティック関連ポイントを選択し、複数のインスタンス学習(MIL)を通してセマンティックセンターポイントを生成する。 このようにして、CPRは、粗い点監督の下で高性能オブジェクトローカライザのトレーニングを保証する、弱い制御された進化手順を定義する。 COCO,DOTAおよび提案したSeaPersonデータセットの実験結果から,CPR手法の有効性が検証された。 データセットとコードはhttps://github.com/u cas-vg/pointtinybenc hmark/で入手できる。

Point-based object localization (POL), which pursues high-performance object sensing under low-cost data annotation, has attracted increased attention. However, the point annotation mode inevitably introduces semantic variance for the inconsistency of annotated points. Existing POL methods heavily reply on accurate key-point annotations which are difficult to define. In this study, we propose a POL method using coarse point annotations, relaxing the supervision signals from accurate key points to freely spotted points. To this end, we propose a coarse point refinement (CPR) approach, which to our best knowledge is the first attempt to alleviate semantic variance from the perspective of algorithm. CPR constructs point bags, selects semantic-correlated points, and produces semantic center points through multiple instance learning (MIL). In this way, CPR defines a weakly supervised evolution procedure, which ensures training high-performance object localizer under coarse point supervision. Experimental results on COCO, DOTA and our proposed SeaPerson dataset validate the effectiveness of the CPR approach. The dataset and code will be available at https://github.com/u cas-vg/PointTinyBenc hmark/.
翻訳日:2022-03-18 21:16:33 公開日:2022-03-17
# (参考訳) cyborgs: セグメンテーションにおける接地によるオブジェクト表現のブートストラップ [全文訳有]

CYBORGS: Contrastively Bootstrapping Object Representations by Grounding in Segmentation ( http://arxiv.org/abs/2203.09343v1 )

ライセンス: CC BY 4.0
Renhao Wang, Hang Zhao, Yang Gao(参考訳) コントラスト学習における最近の多くのアプローチは、imagenetのような象徴的なイメージの事前トレーニングと、cocoのような複雑なシーンでの事前トレーニングの間のギャップを埋めるために取り組んできた。 このギャップは、多種多様なオブジェクトの混み合ったシーンイメージに意味的に一貫性のないコンテンツが得られるため、主に存在する。 以前の作業では、トリッピングを改善するためにサルエントオブジェクトをローカライズするために前処理パイプラインを使用しているが、エンドツーエンドのソリューションはまだ理解できない。 本研究では,表現とセグメンテーションの協調学習を通じて,この目標を達成する枠組みを提案する。 私たちはセグメンテーションマスクを利用して、マスク依存のコントラスト損失を伴うモデルをトレーニングし、部分的に訓練されたモデルを使ってより良いマスクをブートストラップします。 これら2つのコンポーネントを反復することにより、セグメンテーション情報のコントラスト更新を行い、プレトレーニングを通じてセグメンテーションを改善する。 実験では,分類,検出,セグメンテーションにおいて下流タスクにロバストに伝達する表現を示す。

Many recent approaches in contrastive learning have worked to close the gap between pretraining on iconic images like ImageNet and pretraining on complex scenes like COCO. This gap exists largely because commonly used random crop augmentations obtain semantically inconsistent content in crowded scene images of diverse objects. Previous works use preprocessing pipelines to localize salient objects for improved cropping, but an end-to-end solution is still elusive. In this work, we propose a framework which accomplishes this goal via joint learning of representations and segmentation. We leverage segmentation masks to train a model with a mask-dependent contrastive loss, and use the partially trained model to bootstrap better masks. By iterating between these two components, we ground the contrastive updates in segmentation information, and simultaneously improve segmentation throughout pretraining. Experiments show our representations transfer robustly to downstream tasks in classification, detection and segmentation.
翻訳日:2022-03-18 21:15:36 公開日:2022-03-17
# (参考訳) POSTER:CTスキャンを用いたトランスファーラーニング技術によるCOVID-19の診断:深層学習モデルの比較 [全文訳有]

POSTER: Diagnosis of COVID-19 through Transfer Learning Techniques on CT Scans: A Comparison of Deep Learning Models ( http://arxiv.org/abs/2203.09348v1 )

ライセンス: CC BY 4.0
Aeyan Ashraf, Asad Malik, Zahid Khan(参考訳) 新型コロナウイルス(covid-19)は世界的な公衆衛生上の緊急事態である。 世界中で2億3000万人以上が感染している致命的な病気である。 そのため、早期かつ未解決の新型コロナウイルス検出が必要である。 このウイルスの証拠は一般的にRT-PCR検査によって検査されている。 このテストは偽陽性と偽陰性が知られているため、100%信頼できるものではない。 X線画像やCTスキャンなどの他の方法では、肺の詳細な画像が示され、より信頼性が証明されている。 本稿では、CTスキャンデータセット上の転写学習技術を用いて、新型コロナウイルスの検出に使用するさまざまなディープラーニングモデルを比較する。 vgg-16はデータセット上で85.33%の精度で他の全てのモデルを上回る。

The novel coronavirus disease (COVID-19) constitutes a public health emergency globally. It is a deadly disease which has infected more than 230 million people worldwide. Therefore, early and unswerving detection of COVID-19 is necessary. Evidence of this virus is most commonly being tested by RT-PCR test. This test is not 100% reliable as it is known to give false positives and false negatives. Other methods like X-Ray images or CT scans show the detailed imaging of lungs and have been proven more reliable. This paper compares different deep learning models used to detect COVID-19 through transfer learning technique on CT scan dataset. VGG-16 outperforms all the other models achieving an accuracy of 85.33% on the dataset.
翻訳日:2022-03-18 20:54:11 公開日:2022-03-17
# (参考訳) ホーン記述論理オントロジーによる計画の表現性(技術報告) [全文訳有]

Expressivity of Planning with Horn Description Logic Ontologies (Technical Report) ( http://arxiv.org/abs/2203.09361v1 )

ライセンス: CC BY 4.0
Stefan Borgwardt, J\"org Hoffmann, Alisa Kovtunova, Markus Kr\"otzsch, Bernhard Nebel, Marcel Steinmetz(参考訳) ai計画における州の制約は、法的環境国家をグローバルに制限する。 標準計画言語はクローズドドメインとクローズドワールドを仮定する。 ここでは、記述論理(DL)オントロジーを計画することで定式化されたオープンワールド状態制約に対処する。 これまで,このDLと計画の組み合わせは,軽量DL-Liteに対して検討されてきた。 本稿では,より表現豊かなdlに適用可能な,階層化否定を伴うデータログへのdlクエリの書き換え可能性に基づく,標準pddlへの新しいコンパイル方式を提案する。 また、dl horn-alchoiqに対する新しい書き換え可能性結果も提供し、非常に表現力のあるオントロジーにコンパイルスキームを適用することができます。 対照的に、弱い指数的階層が崩壊しない限り、少し拡張したHhorn-SROIQではそのようなコンパイルは不可能である。 最後に,本手法は従来のDLオントロジーを用いた計画ベンチマークよりも優れており,より表現力のあるオントロジーを生かした新しいベンチマークで実現可能であることを示す。 これはAAAI 22で受理された論文の拡張版である。

State constraints in AI Planning globally restrict the legal environment states. Standard planning languages make closed-domain and closed-world assumptions. Here we address open-world state constraints formalized by planning over a description logic (DL) ontology. Previously, this combination of DL and planning has been investigated for the light-weight DL DL-Lite. Here we propose a novel compilation scheme into standard PDDL with derived predicates, which applies to more expressive DLs and is based on the rewritability of DL queries into Datalog with stratified negation. We also provide a new rewritability result for the DL Horn-ALCHOIQ, which allows us to apply our compilation scheme to quite expressive ontologies. In contrast, we show that in the slight extension Horn-SROIQ no such compilation is possible unless the weak exponential hierarchy collapses. Finally, we show that our approach can outperform previous work on existing benchmarks for planning with DL ontologies, and is feasible on new benchmarks taking advantage of more expressive ontologies. That is an extended version of a paper accepted at AAAI 22.
翻訳日:2022-03-18 20:49:05 公開日:2022-03-17
# (参考訳) 医療のための半マルコフオフライン強化学習 [全文訳有]

Semi-Markov Offline Reinforcement Learning for Healthcare ( http://arxiv.org/abs/2203.09365v1 )

ライセンス: CC BY 4.0
Mehdi Fatemi and Mary Wu and Jeremy Petch and Walter Nelson and Stuart J. Connolly and Alexander Benz and Anthony Carnicelli and Marzyeh Ghassemi(参考訳) 強化学習(rl)タスクは通常、決定は一定時間間隔で行われると仮定して、マルコフ決定プロセス(mdps)として構成される。 しかし、医療を含む多くの重要な応用は、この仮定を満たさないが、データを人工的に再構成した後、一般的にMDPとしてモデル化される。 さらに、ほとんどの医療(と同じような)問題は本質的にオフラインであり、レトロスペクティブ研究のみを可能にします。 両課題に対処するために、変数タイミングのアクションを公式に扱うSemi-MDP(SMDP)フレームワークについて議論する。 次に、ほぼ任意の値ベースのオフラインRL法にSMDP修正を適用する公式な方法を示す。 この理論を用いて、SMDPベースのオフラインRLアルゴリズム(SDQN、SDDQN、SBCQ)を3つ導入する。 次に,これらのsmdpに基づくアルゴリズムが可変時間環境において最適なポリシーを学習できることを実験的に実証する。 最後に,脳卒中予防のためのwarfarin dosingに関連する実世界のオフラインデータセットに新しいアルゴリズムを適用し,同様の結果を示す。

Reinforcement learning (RL) tasks are typically framed as Markov Decision Processes (MDPs), assuming that decisions are made at fixed time intervals. However, many applications of great importance, including healthcare, do not satisfy this assumption, yet they are commonly modelled as MDPs after an artificial reshaping of the data. In addition, most healthcare (and similar) problems are offline by nature, allowing for only retrospective studies. To address both challenges, we begin by discussing the Semi-MDP (SMDP) framework, which formally handles actions of variable timings. We next present a formal way to apply SMDP modifications to nearly any given value-based offline RL method. We use this theory to introduce three SMDP-based offline RL algorithms, namely, SDQN, SDDQN, and SBCQ. We then experimentally demonstrate that these SMDP-based algorithms learn the optimal policy in these variable-time environments, whereas un-directed modifications of MDP modelling lead to sub-optimal policies. Finally, we apply our new algorithms to a real-world offline dataset pertaining to warfarin dosing for stroke prevention and demonstrate similar results.
翻訳日:2022-03-18 19:51:11 公開日:2022-03-17
# (参考訳) Transforming Gait: ビデオベースの時空間歩行分析 [全文訳有]

Transforming Gait: Video-Based Spatiotemporal Gait Analysis ( http://arxiv.org/abs/2203.09371v1 )

ライセンス: CC BY-SA 4.0
R. James Cotton, Emoonah McClerklin, Anthony Cimorelli, Ankit Patel, Tasos Karakostas(参考訳) モノキュラービデオからの人間のポーズ推定は、人間の運動科学とリハビリテーションに大きく貢献する、急速に進歩する分野である。 この可能性は、アウトプットが臨床的に有意義で適切に調整されていることを保証する小さな作業によって引き起こされる。 歩行分析は、主に専用の実験室で行われ、運動学やステップのタイミングなどの正確な測定を行う。 歩行解析実験室の7000本以上の単眼映像を用いて、歩行周期タイミングや矢状面関節運動学、時空間軌跡などの解釈可能な生体力学的出力に3次元関節軌跡と個体の高さをマッピングするニューラルネットワークを訓練した。 このタスク固有層は、足の接触と足のオフイベントのタイミングを正確に推定する。 運動出力を個々の歩行サイクルに解析した後、リズム、ステップタイム、ダブルおよびシングルサポートタイム、歩行速度、ステップ長さの正確なサイクル・バイ・サイクル推定を可能にする。

Human pose estimation from monocular video is a rapidly advancing field that offers great promise to human movement science and rehabilitation. This potential is tempered by the smaller body of work ensuring the outputs are clinically meaningful and properly calibrated. Gait analysis, typically performed in a dedicated lab, produces precise measurements including kinematics and step timing. Using over 7000 monocular video from an instrumented gait analysis lab, we trained a neural network to map 3D joint trajectories and the height of individuals onto interpretable biomechanical outputs including gait cycle timing and sagittal plane joint kinematics and spatiotemporal trajectories. This task specific layer produces accurate estimates of the timing of foot contact and foot off events. After parsing the kinematic outputs into individual gait cycles, it also enables accurate cycle-by-cycle estimates of cadence, step time, double and single support time, walking speed and step length.
翻訳日:2022-03-18 19:22:54 公開日:2022-03-17
# (参考訳) ニューラルネットワークの事前学習におけるトモグラフィスライスの順序を用いた事前学習 [全文訳有]

Using the Order of Tomographic Slices as a Prior for Neural Networks Pre-Training ( http://arxiv.org/abs/2203.09372v1 )

ライセンス: CC BY 4.0
Yaroslav Zharov, Alexey Ershov, Tilo Baumbach and Vincent Heuveline(参考訳) CT(Computed Tomography)の技術的進歩により、膨大な量の3Dデータが得られる。 このようなデータセットのために、ニューラルネットワークをトレーニングするための正確な3Dセグメンテーションマークアップを得るには、非常にコストと時間を要する。 アノテーションは通常、限られた数の2Dスライスに対して行われ、補間が続く。 本研究では,SortingLossの事前学習手法を提案する。 ボリュームではなくスライスで事前トレーニングを行うので、補間ステップなしでスライスのスパースセットでモデルを微調整することができる。 一般的な方法(例えば SimCLR や Barlow Twins)とは異なり、タスク固有の方法(例えば Transferable Visual Words)は、入力データに強い仮定を課すことで、品質上のメリットを広く適用する。 体積の一定の軸に沿って数個のスライスを取ると、それらのスライスに示されるサンプルの構造が軸に沿って正しい順序を再構築する強力な手がかりとなる、比較的穏やかな仮定を提案する。 多くのバイオメディカルデータセットがこの要件を満たすのは、サンプルの特定の解剖学と、撮像装置の事前定義されたアライメントのためである。 提案手法は, 新型コロナウイルスによる肺の医療用CT, モデル生物(メダカフィッシュ)の高分解能シンクロトロンベースフルボディCTの2つのデータセットについて検討した。 提案手法はSimCLRと同等に動作し、2倍高速に動作し、1.5倍少ないメモリを必要とすることを示す。 さらに,実用的なシナリオ,特に大規模モデルの事前トレーニングへの適用性,教師なしのセットアップでボリューム内にサンプルをローカライズする機能について紹介する。

The technical advances in Computed Tomography (CT) allow to obtain immense amounts of 3D data. For such datasets it is very costly and time-consuming to obtain the accurate 3D segmentation markup to train neural networks. The annotation is typically done for a limited number of 2D slices, followed by an interpolation. In this work, we propose a pre-training method SortingLoss. It performs pre-training on slices instead of volumes, so that a model could be fine-tuned on a sparse set of slices, without the interpolation step. Unlike general methods (e.g. SimCLR or Barlow Twins), the task specific methods (e.g. Transferable Visual Words) trade broad applicability for quality benefits by imposing stronger assumptions on the input data. We propose a relatively mild assumption -- if we take several slices along some axis of a volume, structure of the sample presented on those slices, should give a strong clue to reconstruct the correct order of those slices along the axis. Many biomedical datasets fulfill this requirement due to the specific anatomy of a sample and pre-defined alignment of the imaging setup. We examine the proposed method on two datasets: medical CT of lungs affected by COVID-19 disease, and high-resolution synchrotron-based full-body CT of model organisms (Medaka fish). We show that the proposed method performs on par with SimCLR, while working 2x faster and requiring 1.5x less memory. In addition, we present the benefits in terms of practical scenarios, especially the applicability to the pre-training of large models and the ability to localize samples within volumes in an unsupervised setup.
翻訳日:2022-03-18 19:08:08 公開日:2022-03-17
# (参考訳) rgb-dスキャンにおける部分ベースオブジェクト補完の最適化のための学習

Neural Part Priors: Learning to Optimize Part-Based Object Completion in RGB-D Scans ( http://arxiv.org/abs/2203.09375v1 )

ライセンス: CC BY 4.0
Alexey Bokhovkin, Angela Dai(参考訳) 近年、3dオブジェクト認識は大幅に進歩しており、実世界の3dスキャンベンチマークでは印象的なパフォーマンスを示しているが、オブジェクト部分推論には欠けており、オブジェクト間の類似性やオブジェクト機能といった高レベルなシーン理解の基盤となっている。 そこで本研究では,3次元形状の大規模合成データセットを部品情報に付加して,幾何学的部分前処理を特徴付ける最適化可能な空間であるNPP(Neural Part Priors)を学習する。 重要なことは、実空間でスキャンされた実世界の3Dシーンに適合するように、学習した部分の事前を最適化し、これらのシーンにおける実際のオブジェクトの堅牢な部分分解を可能にし、観測された実際の幾何学に正確に適合しながら、オブジェクトの完全な幾何学を推定する。 さらに、これはシーン内の幾何学的に類似した検出されたオブジェクトに対するグローバル最適化を可能にし、しばしば強い幾何学的共通性を共有し、シーン一貫性のある部分分解を可能にする。 ScanNetデータセットの実験では、NPPは実世界のシーンにおける部分分解とオブジェクト補完において、芸術の状態を著しく上回ります。

3D object recognition has seen significant advances in recent years, showing impressive performance on real-world 3D scan benchmarks, but lacking in object part reasoning, which is fundamental to higher-level scene understanding such as inter-object similarities or object functionality. Thus, we propose to leverage large-scale synthetic datasets of 3D shapes annotated with part information to learn Neural Part Priors (NPPs), optimizable spaces characterizing geometric part priors. Crucially, we can optimize over the learned part priors in order to fit to real-world scanned 3D scenes at test time, enabling robust part decomposition of the real objects in these scenes that also estimates the complete geometry of the object while fitting accurately to the observed real geometry. Moreover, this enables global optimization over geometrically similar detected objects in a scene, which often share strong geometric commonalities, enabling scene-consistent part decompositions. Experiments on the ScanNet dataset demonstrate that NPPs significantly outperforms state of the art in part decomposition and object completion in real-world scenes.
翻訳日:2022-03-18 18:58:38 公開日:2022-03-17
# (参考訳) ガウス初期化はバレン高原から深い変分量子回路を逃れるのに役立つ

Gaussian initializations help deep variational quantum circuits escape from the barren plateau ( http://arxiv.org/abs/2203.09376v1 )

ライセンス: CC BY 4.0
Kaining Zhang and Min-Hsiu Hsieh and Liu Liu and Dacheng Tao(参考訳) 変分量子回路は近年、量子シミュレーションや量子機械学習に広く採用されている。 しかし、ランダムな構造を持つ量子回路は、回路の深さとキュービット数に関して指数関数的に消失する勾配のため、訓練性が乏しい。 この結果、深い量子回路は実用的なタスクでは実現できないという一般的な信念が導かれる。 本研究では,一般的な深部回路における勾配問題に対する理論的保証付き初期化戦略を提案する。 具体的には、正規ガウス初期化パラメータの下では、量子ビット数と回路深さが増加すると勾配のノルムが多項式的に減衰することを示す。 理論的には, 浅層回路においても勾配が消失していると考えられる局所的および大域的観測可能なケースについて考察した。 量子シミュレーションと量子化学における理論的知見を実験的に検証した。

Variational quantum circuits have been widely employed in quantum simulation and quantum machine learning in recent years. However, quantum circuits with random structures have poor trainability due to the exponentially vanishing gradient with respect to the circuit depth and the qubit number. This result leads to a general belief that deep quantum circuits will not be feasible for practical tasks. In this work, we propose an initialization strategy with theoretical guarantees for the vanishing gradient problem in general deep circuits. Specifically, we prove that under proper Gaussian initialized parameters, the norm of the gradient decays at most polynomially when the qubit number and the circuit depth increase. Our theoretical results hold for both the local and the global observable cases, where the latter was believed to have vanishing gradients even for shallow circuits. Experimental results verify our theoretical findings in the quantum simulation and quantum chemistry.
翻訳日:2022-03-18 18:57:44 公開日:2022-03-17
# (参考訳) 反復型ハードThresholdingの安定性とリスク境界

Stability and Risk Bounds of Iterative Hard Thresholding ( http://arxiv.org/abs/2203.09413v1 )

ライセンス: CC BY 4.0
Xiao-Tong Yuan and Ping Li(参考訳) 本稿では,sparse recovery問題に広く用いられている反復型ハードしきい値(iht)アルゴリズムの一般化性能について解析する。 IHTのパラメータ推定と疎性回復の整合性は、長い間圧縮センシングにおいて知られていた。 統計的学習の観点からは、別の根本的な疑問は、IHT推定が目に見えないデータに対してどの程度うまく予測するかである。 本稿では,アルゴリズム的安定性の概念の下でIHTの新しいスパース一般化理論を導入することにより,このオープンな質問に答える。 私たちの理論が示すのは 1) 次元 $p$ 以上の経験的リスク関数上の自然条件の下では、スパルシティレベル $k$ を持つ iht は、スパース過剰リスクにおける収束率 $\mathcal{\tilde o}(n^{-1/2}\sqrt{k\log(n)\log(p)}) を享受する。 2) より厳密な$\mathcal{\tilde O}(n^{-1/2}\sqrt{\log(n)})$boundは、集団リスクによって誘導される仮説的IHTプロシージャに追加の反復安定条件を課すことによって確立できる。 3) 次数 $\mathcal{\tilde o}\left(n^{-1}k(\log^3(n)+\log(p))\right)$ は、適切な強信号条件下での強凸リスク関数に対して導出することができる。 その結果, 線形回帰モデルと疎ロジスティック回帰モデルを用いて, 理論の適用性を示すことができた。 理論的予測を確認するための予備的な数値的証拠が提供される。

In this paper, we analyze the generalization performance of the Iterative Hard Thresholding (IHT) algorithm widely used for sparse recovery problems. The parameter estimation and sparsity recovery consistency of IHT has long been known in compressed sensing. From the perspective of statistical learning, another fundamental question is how well the IHT estimation would predict on unseen data. This paper makes progress towards answering this open question by introducing a novel sparse generalization theory for IHT under the notion of algorithmic stability. Our theory reveals that: 1) under natural conditions on the empirical risk function over $n$ samples of dimension $p$, IHT with sparsity level $k$ enjoys an $\mathcal{\tilde O}(n^{-1/2}\sqrt{k\log(n)\log(p)})$ rate of convergence in sparse excess risk; 2) a tighter $\mathcal{\tilde O}(n^{-1/2}\sqrt{\log(n)})$ bound can be established by imposing an additional iteration stability condition on a hypothetical IHT procedure invoked to the population risk; and 3) a fast rate of order $\mathcal{\tilde O}\left(n^{-1}k(\log^3(n)+\log(p))\right)$ can be derived for strongly convex risk function under proper strong-signal conditions. The results have been substantialized to sparse linear regression and sparse logistic regression models to demonstrate the applicability of our theory. Preliminary numerical evidence is provided to confirm our theoretical predictions.
翻訳日:2022-03-18 18:56:34 公開日:2022-03-17
# (参考訳) 潜在セマンティック成分を用いた深部無監督ハッシュ [全文訳有]

Deep Unsupervised Hashing with Latent Semantic Components ( http://arxiv.org/abs/2203.09420v1 )

ライセンス: CC BY 4.0
Qinghong Lin, Xiaojun Chen, Qin Zhang, Shaotian Cai, Wenzhe Zhao, Hongfa Wang(参考訳) 深い教師なしのハッシュ処理は、画像検索の仕組みにおいて評価されている。 しかし、ほとんどの先行芸術は、画像の背後にある意味的構成要素とそれらの関係を検知できなかったため、識別力に欠けていた。 そこで本研究では,画像に相同性や共起関係を持つ意味成分の束を通常含むという常識を包含する,新しい深層意味成分ハッシュ(dsch)を提案する。 これに基づいて、DSCHは、セマンティックコンポーネントを期待最大化フレームワークの下で潜在変数とみなし、トレーニングデータの最大最大度を目標とした2段階反復アルゴリズムを設計する。 まず、DSCHは、画像のきめ細かいセマンティックス成分をガウス混合モーダル〜(GMM)で発見し、画像が複数のコンポーネントの混合として表現され、セマンティックス共起が利用されるセマンティックコンポーネント構造を構築する。 さらに、細粒度成分間のホモロジー関係を考慮して粗粒度意味論成分を発見し、階層構造を構築する。 第2に、DSCHは、イメージをセマンティックコンポーネントの中心に近い粒度と粗い粒度の両方にし、画像が互いに類似したセマンティックコンポーネントを共有する。 3つのベンチマークデータセットに関する広範囲な実験は、提案された階層的セマンティックコンポーネントが、より優れたパフォーマンスを達成するためにハッシュモデルを促進することを実証している。

Deep unsupervised hashing has been appreciated in the regime of image retrieval. However, most prior arts failed to detect the semantic components and their relationships behind the images, which makes them lack discriminative power. To make up the defect, we propose a novel Deep Semantic Components Hashing (DSCH), which involves a common sense that an image normally contains a bunch of semantic components with homology and co-occurrence relationships. Based on this prior, DSCH regards the semantic components as latent variables under the Expectation-Maximiza tion framework and designs a two-step iterative algorithm with the objective of maximum likelihood of training data. Firstly, DSCH constructs a semantic component structure by uncovering the fine-grained semantics components of images with a Gaussian Mixture Modal~(GMM), where an image is represented as a mixture of multiple components, and the semantics co-occurrence are exploited. Besides, coarse-grained semantics components, are discovered by considering the homology relationships between fine-grained components, and the hierarchy organization is then constructed. Secondly, DSCH makes the images close to their semantic component centers at both fine-grained and coarse-grained levels, and also makes the images share similar semantic components close to each other. Extensive experiments on three benchmark datasets demonstrate that the proposed hierarchical semantic components indeed facilitate the hashing model to achieve superior performance.
翻訳日:2022-03-18 18:55:19 公開日:2022-03-17
# (参考訳) elBERto: 質問応答のための自己指導型コモンセンス学習 [全文訳有]

elBERto: Self-supervised Commonsense Learning for Question Answering ( http://arxiv.org/abs/2203.09424v1 )

ライセンス: CC BY 4.0
Xunlin Zhan, Yuan Li, Xiao Dong, Xiaodan Liang, Zhiting Hu, and Lawrence Carin(参考訳) 常識的な質問に答えるには、日常の状況や原因や影響を暗黙的に考える必要がある。 通常、既存の手法はまず外部の証拠を回収し、これらの証拠を用いて常識的推論を行う。 本稿では,市販QAモデルアーキテクチャと互換性のある,自己教師型双方向エンコーダ表現学習(elBERto)フレームワークを提案する。 このフレームワークは5つの自己教師型タスクから構成されており、リッチコモンセンスを含むコンテキストから追加のトレーニング信号を完全に活用するようモデルを強制する。 このタスクには、論理的にコントラストのあるコンテキストを区別するようモデルに奨励する新しいContrastive Relation Learningタスク、長いコンテキストで論理的なチェーンを推論する必要がある新しいJigsaw Puzzleタスク、事前訓練されたモデル言語エンコーディング能力を維持するための3つの古典的なSSLタスクが含まれる。 代表的なWIQA、CosmosQA、ReClorデータセットでは、elBERtoは明示的なグラフ推論や外部知識検索など、他の方法よりも優れている。 さらにelbertoは、単純な語彙の類似性比較が役に立たないパラグラフと無影響の質問に対して実質的な改善を達成し、それがコモンセンスをうまく学習し、与えられた動的文脈においてそれを活用できることを示している。

Commonsense question answering requires reasoning about everyday situations and causes and effects implicit in context. Typically, existing approaches first retrieve external evidence and then perform commonsense reasoning using these evidence. In this paper, we propose a Self-supervised Bidirectional Encoder Representation Learning of Commonsense (elBERto) framework, which is compatible with off-the-shelf QA model architectures. The framework comprises five self-supervised tasks to force the model to fully exploit the additional training signals from contexts containing rich commonsense. The tasks include a novel Contrastive Relation Learning task to encourage the model to distinguish between logically contrastive contexts, a new Jigsaw Puzzle task that requires the model to infer logical chains in long contexts, and three classic SSL tasks to maintain pre-trained models language encoding ability. On the representative WIQA, CosmosQA, and ReClor datasets, elBERto outperforms all other methods, including those utilizing explicit graph reasoning and external knowledge retrieval. Moreover, elBERto achieves substantial improvements on out-of-paragraph and no-effect questions where simple lexical similarity comparison does not help, indicating that it successfully learns commonsense and is able to leverage it when given dynamic context.
翻訳日:2022-03-18 18:41:38 公開日:2022-03-17
# (参考訳) ドメイン適応のための相互学習:サンプルサイクルによる自己蒸留画像デハージングネットワーク [全文訳有]

Mutual Learning for Domain Adaptation: Self-distillation Image Dehazing Network with Sample-cycle ( http://arxiv.org/abs/2203.09430v1 )

ライセンス: CC BY 4.0
Tian Ye, Yun Liu, Yunchen Zhang, Sixiang Chen, Erkang Chen(参考訳) 深層学習に基づく手法は、画像のデハージングにおいて大きな成果を上げている。 しかし,既存のデハジングネットワークのほとんどは,模擬ハジング画像を用いたトレーニングモデルに集中しており,ドメインシフトによる実世界のハジング画像に適用した場合の一般化性能劣化が生じる。 本稿では,ドメイン適応のための相互学習型デヘイジングフレームワークを提案する。 具体的には,まず,合成ドメインの教師ネットワークと実ドメインの学生ネットワークの2つのシャムネットワークを考案し,emaと共同損失を利用して相互学習方式で最適化した。 さらに,学生ネットワークが提供する擬似実世界画像ペアをトレーニングに導入し,一般化性能をさらに向上させるために,密度増強(hda)モジュールに基づくサンプルサイクル戦略を設計する。 合成データと実世界のデータセットの両方に関する広範囲な実験により,提案手法が主観的・客観的評価において最先端のデハジング技術を上回ることが示された。

Deep learning-based methods have made significant achievements for image dehazing. However, most of existing dehazing networks are concentrated on training models using simulated hazy images, resulting in generalization performance degradation when applied on real-world hazy images because of domain shift. In this paper, we propose a mutual learning dehazing framework for domain adaption. Specifically, we first devise two siamese networks: a teacher network in the synthetic domain and a student network in the real domain, and then optimize them in a mutual learning manner by leveraging EMA and joint loss. Moreover, we design a sample-cycle strategy based on density augmentation (HDA) module to introduce pseudo real-world image pairs provided by the student network into training for further improving the generalization performance. Extensive experiments on both synthetic and real-world dataset demonstrate that the propose mutual learning framework outperforms state-of-the-art dehazing techniques in terms of subjective and objective evaluation.
翻訳日:2022-03-18 18:22:09 公開日:2022-03-17
# (参考訳) プレトレーニングされたモデルを辞書ベースの適応により数千の言語に拡張する [全文訳有]

Expanding Pretrained Models to Thousands More Languages via Lexicon-based Adaptation ( http://arxiv.org/abs/2203.09435v1 )

ライセンス: CC BY 4.0
Xinyi Wang, Sebastian Ruder, Graham Neubig(参考訳) 多言語事前訓練モデルの性能は、対象言語に存在する単言語または並列テキストの可用性に大きく依存する。 したがって、世界の言語の大部分は、テキストデータがないか制限されているため、最近のNLPの進歩の恩恵を受けることはできない。 そこで我々は,従来の言語資源への依存を緩和する戦略を,より優れた言語カバレッジを持つ代替資源であるバイリンガル・レキシコンを用いて体系的に研究した。 レキシコンを用いてテキストまたはラベル付きデータを合成するための様々な戦略と、このデータが利用可能な場合の単一言語または並列テキストとどのように組み合わせられるかを分析する。 3つのタスクにまたがる19の未表現言語に対して,提案手法は,それぞれ単言語テキストを含まない5点と15点の一貫した改善をもたらす。 全体として、我々の研究は、NLPメソッドが現在の技術で不足している何千もの言語にどのように適応できるかを強調している。

The performance of multilingual pretrained models is highly dependent on the availability of monolingual or parallel text present in a target language. Thus, the majority of the world's languages cannot benefit from recent progress in NLP as they have no or limited textual data. To expand possibilities of using NLP technology in these under-represented languages, we systematically study strategies that relax the reliance on conventional language resources through the use of bilingual lexicons, an alternative resource with much better language coverage. We analyze different strategies to synthesize textual or labeled data using lexicons, and how this data can be combined with monolingual or parallel text when available. For 19 under-represented languages across 3 tasks, our methods lead to consistent improvements of up to 5 and 15 points with and without extra monolingual text respectively. Overall, our study highlights how NLP methods can be adapted to thousands more languages that are under-served by current technology
翻訳日:2022-03-18 18:09:24 公開日:2022-03-17
# (参考訳) 静的な経路自由時間推定のための説明可能な積み重ね組立モデル [全文訳有]

An Explainable Stacked Ensemble Model for Static Route-Free Estimation of Time of Arrival ( http://arxiv.org/abs/2203.09438v1 )

ライセンス: CC BY 4.0
S\"oren Schleibaum and J\"org P. M\"uller and Monika Sester(参考訳) 代替タクシーのスケジュールを比較し、それらを計算し、ドライバーや乗客への来るべきタクシー旅行についての洞察を提供するため、旅行の期間またはその推定時刻(ETA)が予測される。 予測精度を高めるために、ETAの機械学習モデルは最先端の技術である。 予測精度をさらに高めるための未発表の選択肢の1つは、複数のETAモデルをアンサンブルに組み合わせることである。 予測精度が向上する可能性は高いが、洗練されたアンサンブル構造により、アンサンブルによる予測が透明化しないことが主な欠点である。 この欠点を補う一つの選択肢は、eXplainable Artificial Intelligence (XAI)を適用することである。 本論文の貢献は3倍である。 まず、前回のetaの研究から得られた複数の機械学習モデルを、それ自体が新しい2段階のアンサンブルモデル(積み重ねられたアンサンブルモデル)に統合する。 第2に、既存のXAI手法を用いて、アンサンブルの第1レベルと第2レベルのモデルを説明する。 第3に,第1レベルの説明と第2レベルの説明を組み合わせるための3つの結合手法を提案する。 これらの結合手法により、回帰タスクの積み重ねアンサンブルを説明できます。 実験により, ETAモデルは, 予測を駆動する入力特徴の重要性を正しく学習した。

To compare alternative taxi schedules and to compute them, as well as to provide insights into an upcoming taxi trip to drivers and passengers, the duration of a trip or its Estimated Time of Arrival (ETA) is predicted. To reach a high prediction precision, machine learning models for ETA are state of the art. One yet unexploited option to further increase prediction precision is to combine multiple ETA models into an ensemble. While an increase of prediction precision is likely, the main drawback is that the predictions made by such an ensemble become less transparent due to the sophisticated ensemble architecture. One option to remedy this drawback is to apply eXplainable Artificial Intelligence (XAI). The contribution of this paper is three-fold. First, we combine multiple machine learning models from our previous work for ETA into a two-level ensemble model - a stacked ensemble model - which on its own is novel; therefore, we can outperform previous state-of-the-art static route-free ETA approaches. Second, we apply existing XAI methods to explain the first- and second-level models of the ensemble. Third, we propose three joining methods for combining the first-level explanations with the second-level ones. Those joining methods enable us to explain stacked ensembles for regression tasks. An experimental evaluation shows that the ETA models correctly learned the importance of those input features driving the prediction.
翻訳日:2022-03-18 17:51:34 公開日:2022-03-17
# Navier-Stokes方程式を近似した物理情報ニューラルネットワークの誤差推定

Error estimates for physics informed neural networks approximating the Navier-Stokes equations ( http://arxiv.org/abs/2203.09346v1 )

ライセンス: Link先を確認
Tim De Ryck, Ameya D. Jagtap, Siddhartha Mishra(参考訳) ニューラルネットワークを用いた圧縮不可能なNavier-Stokes方程式の近似による誤差の厳密な境界を証明した。 2つの隠れ層を持つtanhニューラルネットワークでは、基盤となるpde残差を任意に小さくすることができる。 さらに、トレーニングエラー、ネットワークサイズ、および二次点数の観点から、総誤差を推定することができる。 その理論は数値実験で示される。

We prove rigorous bounds on the errors resulting from the approximation of the incompressible Navier-Stokes equations with (extended) physics informed neural networks. We show that the underlying PDE residual can be made arbitrarily small for tanh neural networks with two hidden layers. Moreover, the total error can be estimated in terms of the training error, network size and number of quadrature points. The theory is illustrated with numerical experiments.
翻訳日:2022-03-18 16:05:41 公開日:2022-03-17
# (参考訳) 構造的に曖昧な確率文法の学習

Learning of Structurally Unambiguous Probabilistic Grammars ( http://arxiv.org/abs/2203.09441v1 )

ライセンス: CC BY 4.0
Dana Fisman, Dolav Nitay, Michal Ziv-Ukelson(参考訳) 確率的文脈自由文法を識別する問題は2つの側面がある: 1つは文法の位相(文法の規則)を決定すること、2つ目は確率的重みを各規則に対して推定することである。 文脈自由文法の学習の難しさ、特に確率文法の難しさを考えると、ほとんどの文献は第二の問題に集中している。 この作業では、最初の問題に対処します。 本研究では,構造的に曖昧な文脈自由文法 (SUWCFG) への注意を制限し,構造的に曖昧な文脈自由文法 (SUPCFG) に対するクエリ学習アルゴリズムを提供する。 本稿では, SUWCFG を \emph{co-linear multiplicity tree autoa} (CMTA) を用いて表現し, CMTA を学習する多項式学習アルゴリズムを提案する。 学習したcmtaを確率的文法に変換することができ、構造的非曖昧な確率的文脈自由文法(文法トポロジーと確率的重みの両方)を構造的メンバーシップクエリと構造的等価クエリを用いて学習するための完全なアルゴリズムを提供する。 この作品の要約版がAAAI 21で出版された。

The problem of identifying a probabilistic context free grammar has two aspects: the first is determining the grammar's topology (the rules of the grammar) and the second is estimating probabilistic weights for each rule. Given the hardness results for learning context-free grammars in general, and probabilistic grammars in particular, most of the literature has concentrated on the second problem. In this work we address the first problem. We restrict attention to structurally unambiguous weighted context-free grammars (SUWCFG) and provide a query learning algorithm for \structurally unambiguous probabilistic context-free grammars (SUPCFG). We show that SUWCFG can be represented using \emph{co-linear multiplicity tree automata} (CMTA), and provide a polynomial learning algorithm that learns CMTAs. We show that the learned CMTA can be converted into a probabilistic grammar, thus providing a complete algorithm for learning a structurally unambiguous probabilistic context free grammar (both the grammar topology and the probabilistic weights) using structured membership queries and structured equivalence queries. A summarized version of this work was published at AAAI 21.
翻訳日:2022-03-18 16:04:21 公開日:2022-03-17
# MuKEA:知識に基づく視覚質問応答のためのマルチモーダル知識抽出と蓄積

MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering ( http://arxiv.org/abs/2203.09138v1 )

ライセンス: Link先を確認
Yang Ding, Jing Yu, Bang Liu, Yue Hu, Mingxin Cui, Qi Wu(参考訳) 知識に基づく視覚的質問応答には、オープンエンドのシーン理解に外部知識を関連付ける能力が必要である。 既存のソリューションの1つの制限は、テキストのみの知識ベースから関連する知識を取得することである。 VQAシナリオに対する視覚関連かつ説明可能なマルチモーダル知識の構築方法はあまり研究されていない。 本稿では,視対象と事実回答と暗黙の関係を関連付けるために,明示的な三重項によるマルチモーダル知識を表現するmukeaを提案する。 不均一なギャップを埋めるために,3重項表現を相補的な視点から学習する3つの目的的損失(埋め込み構造,位相関係,意味空間)を提案する。 事前学習および微調整学習戦略を採用することにより、基礎的およびドメイン固有のマルチモーダル知識を漸進的に蓄積し、回答予測を行う。 我々は、2つの困難な知識要求データセットであるOK-VQAとKRVQAで、最先端の3.35%と6.08%をそれぞれ上回ります。 実験の結果,既存の知識ベースを用いたマルチモーダル知識の補完的メリットと,既存のパイプラインメソッドに対するエンドツーエンドフレームワークのメリットが証明された。 コードはhttps://github.com/A ndersonStra/MuKEAで入手できる。

Knowledge-based visual question answering requires the ability of associating external knowledge for open-ended cross-modal scene understanding. One limitation of existing solutions is that they capture relevant knowledge from text-only knowledge bases, which merely contain facts expressed by first-order predicates or language descriptions while lacking complex but indispensable multimodal knowledge for visual understanding. How to construct vision-relevant and explainable multimodal knowledge for the VQA scenario has been less studied. In this paper, we propose MuKEA to represent multimodal knowledge by an explicit triplet to correlate visual objects and fact answers with implicit relations. To bridge the heterogeneous gap, we propose three objective losses to learn the triplet representations from complementary views: embedding structure, topological relation and semantic space. By adopting a pre-training and fine-tuning learning strategy, both basic and domain-specific multimodal knowledge are progressively accumulated for answer prediction. We outperform the state-of-the-art by 3.35% and 6.08% respectively on two challenging knowledge-required datasets: OK-VQA and KRVQA. Experimental results prove the complementary benefits of the multimodal knowledge with existing knowledge bases and the advantages of our end-to-end framework over the existing pipeline methods. The code is available at https://github.com/A ndersonStra/MuKEA.
翻訳日:2022-03-18 16:02:24 公開日:2022-03-17
# アクティブビジュオ・ハプティック物体形状完了

Active Visuo-Haptic Object Shape Completion ( http://arxiv.org/abs/2203.09149v1 )

ライセンス: Link先を確認
Lukas Rustler, Jens Lundell, Jan Kristof Behrens, Ville Kyrki, Matej Hoffmann(参考訳) 近年のオブジェクト形状補完の進歩により、視覚入力のみを用いた印象的なオブジェクト再構成が可能となった。 しかし, 自己完結性のため, 咬合対象部において高い不確実性を有しており, 把持などの下流ロボット作業の性能に悪影響を及ぼす。 本研究では,復元の不確かさに基づいて物体に接する場所を積極的に計算するact-vhと呼ばれるアクティブな振動触覚形状完了法を提案する。 act-vhは点雲から物体を再構成し、最新の暗黙的表面深層ニューラルネットワークであるigrを用いて再構成の不確かさを計算する。 シミュレーションおよび実世界における5つの基準線に対するAct-VHの再構成精度を実験的に評価した。 この目的のために,新しいシミュレーション環境を提案する。 その結果,Act-VHはすべてのベースラインを上回り,不確実性駆動型ハプティックサーベイポリシはランダムなポリシーやガウス的プロセスインプリシットサーフェスによって駆動されるポリシーよりも高い再構築精度をもたらすことがわかった。 最終実験として,Act-VHとベストリコンストラクションベースラインを10個の新しいオブジェクトを把握した上で評価した。 その結果,Act-VHは全物体のベースラインよりも把握成功率が高いことがわかった。 この作品によって、より複雑な乱雑な場面で活発なビジュオハプティックな形状が完成する扉が開けられる。

Recent advancements in object shape completion have enabled impressive object reconstructions using only visual input. However, due to self-occlusion, the reconstructions have high uncertainty in the occluded object parts, which negatively impacts the performance of downstream robotic tasks such as grasping. In this work, we propose an active visuo-haptic shape completion method called Act-VH that actively computes where to touch the objects based on the reconstruction uncertainty. Act-VH reconstructs objects from point clouds and calculates the reconstruction uncertainty using IGR, a recent state-of-the-art implicit surface deep neural network. We experimentally evaluate the reconstruction accuracy of Act-VH against five baselines in simulation and in the real world. We also propose a new simulation environment for this purpose. The results show that Act-VH outperforms all baselines and that an uncertainty-driven haptic exploration policy leads to higher reconstruction accuracy than a random policy and a policy driven by Gaussian Process Implicit Surfaces. As a final experiment, we evaluate Act-VH and the best reconstruction baseline on grasping 10 novel objects. The results show that Act-VH reaches a significantly higher grasp success rate than the baseline on all objects. Together, this work opens up the door for using active visuo-haptic shape completion in more complex cluttered scenes.
翻訳日:2022-03-18 16:01:56 公開日:2022-03-17
# 非正規サンプリングビデオデータの高速再帰的再構成のための新しい一貫性チェック

Novel Consistency Check For Fast Recursive Reconstruction Of Non-Regularly Sampled Video Data ( http://arxiv.org/abs/2203.09200v1 )

ライセンス: Link先を確認
Simon Grosche and J\"urgen Seiler and Andr\'e Kaup(参考訳) クォーターサンプリングは、ピクセル数を増やすことなく高解像度画像の取得を可能にする新しいセンサー設計である。 ビデオデータに使用される場合、各フレームで4ピクセル中1ピクセルが測定される。 事実上、これは非正規時空間サブサンプリングにつながる。 純粋に空間的なサブサンプリングや時間的なサブサンプリングと比較して、エイリアスやアーティファクトを削減できるため、コンストラクションの品質が向上する。 固定マスクを用いたセンサデータの高速再構成のために、周波数選択的再構成(FSR)の再帰的変種を提案した。 ここで、前のフレームで測定された画素を現在のフレームに投影し、その再構成をサポートする。 これにより、フレーム間の動きをテンプレートマッチングを用いて計算する。 動きベクトルのいくつかは誤りである可能性があるため、適切な一貫性チェックを行うことが重要である。 本稿では,文献とは異なる投影画素を用いて動的マスクを処理可能な新しい再帰的fsrと同様に,より高速な一貫性チェック手法を提案する。 総じて,固定マスクを用いた再帰的再構築法と比較して,復元品質を+1.01db向上させることができた。 単一のフレーム再構成と比較すると、ダイナミックマスクでは平均ゲインが約1.52dBに達する。 同時に、一貫性チェックの計算複雑性を文献アルゴリズムと比較して13倍に削減する。

Quarter sampling is a novel sensor design that allows for an acquisition of higher resolution images without increasing the number of pixels. When being used for video data, one out of four pixels is measured in each frame. Effectively, this leads to a non-regular spatio-temporal sub-sampling. Compared to purely spatial or temporal sub-sampling, this allows for an increased reconstruction quality, as aliasing artifacts can be reduced. For the fast reconstruction of such sensor data with a fixed mask, recursive variant of frequency selective reconstruction (FSR) was proposed. Here, pixels measured in previous frames are projected into the current frame to support its reconstruction. In doing so, the motion between the frames is computed using template matching. Since some of the motion vectors may be erroneous, it is important to perform a proper consistency checking. In this paper, we propose faster consistency checking methods as well as a novel recursive FSR that uses the projected pixels different than in literature and can handle dynamic masks. Altogether, we are able to significantly increase the reconstruction quality by + 1.01 dB compared to the state-of-the-art recursive reconstruction method using a fixed mask. Compared to a single frame reconstruction, an average gain of about + 1.52 dB is achieved for dynamic masks. At the same time, the computational complexity of the consistency checks is reduced by a factor of 13 compared to the literature algorithm.
翻訳日:2022-03-18 16:01:32 公開日:2022-03-17
# X線画像における金属セグメンテーションを考慮した視覚変換器のシミュレーション駆動訓練

Simulation-Driven Training of Vision Transformers Enabling Metal Segmentation in X-Ray Images ( http://arxiv.org/abs/2203.09207v1 )

ライセンス: Link先を確認
Fuxin Fan, Ludwig Ritschl, Marcel Beister, Ramyar Biniazan, Bj\"orn Kreher, Tristan M. Gottschalk, Steffen Kappler, Andreas Maier(参考訳) X線ラジオグラフィーのいくつかの画像取得および処理ステップでは、金属インプラントの存在とその正確な位置に関する知識は非常に有用である(線量調整、画像コントラスト調整など)。 正確な金属セグメンテーションの恩恵を受ける別の応用は、2次元X線投影に基づくコーンビーム計算トモグラフィー (CBCT) である。 金属の高減衰のため、3次元のX線取得で深刻なアーティファクトが発生する。 CBCT射影における金属セグメンテーションは、通常、金属アーティファクト回避および還元アルゴリズムの前提条件となる。 そこで本研究では,CTデータセットとCADインプラントを併用し,金属セグメンテーションのための畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)を併用したシミュレーションX線画像を作成することを提案する。 検体スキャンから得られたx線検査データセットを精度良くラベル付けしてモデルテストを行う。 U-NetのようなCNNエンコーダベースのネットワークは、平均ダイススコアが0.30未満のケーダバー試験データに制限がある一方、デュアルデコーダ(MST-DD)による金属セグメンテーショントランスフォーマーは、セグメンテーションタスクにおいて高い堅牢性と一般化を示し、平均ダイススコアは0.90である。 本研究は,CADモデルに基づくデータ生成の柔軟性が向上し,臨床データサンプリングとラベル付けの不足を克服できる可能性を示している。 さらに、MST-DDアプローチは、シミュレーションデータのトレーニングを行う際に、より信頼性の高いニューラルネットワークを生成する。

In several image acquisition and processing steps of X-ray radiography, knowledge of the existence of metal implants and their exact position is highly beneficial (e.g. dose regulation, image contrast adjustment). Another application which would benefit from an accurate metal segmentation is cone beam computed tomography (CBCT) which is based on 2D X-ray projections. Due to the high attenuation of metals, severe artifacts occur in the 3D X-ray acquisitions. The metal segmentation in CBCT projections usually serves as a prerequisite for metal artifact avoidance and reduction algorithms. Since the generation of high quality clinical training is a constant challenge, this study proposes to generate simulated X-ray images based on CT data sets combined with self-designed computer aided design (CAD) implants and make use of convolutional neural network (CNN) and vision transformer (ViT) for metal segmentation. Model test is performed on accurately labeled X-ray test datasets obtained from specimen scans. The CNN encoder-based network like U-Net has limited performance on cadaver test data with an average dice score below 0.30, while the metal segmentation transformer with dual decoder (MST-DD) shows high robustness and generalization on the segmentation task, with an average dice score of 0.90. Our study indicates that the CAD model-based data generation has high flexibility and could be a way to overcome the problem of shortage in clinical data sampling and labelling. Furthermore, the MST-DD approach generates a more reliable neural network in case of training on simulated data.
翻訳日:2022-03-18 16:01:09 公開日:2022-03-17
# インスタンス正規化を用いた奥行き認識ニューラルスタイル転送

Depth-aware Neural Style Transfer using Instance Normalization ( http://arxiv.org/abs/2203.09242v1 )

ライセンス: Link先を確認
Eleftherios Ioannou and Steve Maddock(参考訳) ニューラルスタイル転送(NST)は視覚メディアの芸術的スタイル化に関係している。 芸術的なイメージのスタイルを普通の写真に移す過程ともいえる。 近年,入力コンテンツ画像が様々な深度に多数のオブジェクトを含む場合に生じる望ましくない効果に対処するため,NSTアルゴリズムの深度保存能力の向上が検討されている。 本手法では,インスタンス正規化層を有する深い残差畳み込みネットワークを用いて,高度な深さ予測ネットワークを用いて,奥行き保存をコンテンツとスタイルに付加的損失関数として統合する。 コンテンツ画像の深さとグローバルな構造を維持するのに有効な結果を示す。 3つの異なる評価プロセスにより,本システムは,最新の手法に匹敵する,あるいは優れた美的品質を示すとともに,スタイリッシュな結果の構造を保存できることを示した。

Neural Style Transfer (NST) is concerned with the artistic stylization of visual media. It can be described as the process of transferring the style of an artistic image onto an ordinary photograph. Recently, a number of studies have considered the enhancement of the depth-preserving capabilities of the NST algorithms to address the undesired effects that occur when the input content images include numerous objects at various depths. Our approach uses a deep residual convolutional network with instance normalization layers that utilizes an advanced depth prediction network to integrate depth preservation as an additional loss function to content and style. We demonstrate results that are effective in retaining the depth and global structure of content images. Three different evaluation processes show that our system is capable of preserving the structure of the stylized results while exhibiting style-capture capabilities and aesthetic qualities comparable or superior to state-of-the-art methods.
翻訳日:2022-03-18 16:00:40 公開日:2022-03-17
# クロスドメインオープンワールド認識のためのコントラスト学習

Contrastive Learning for Cross-Domain Open World Recognition ( http://arxiv.org/abs/2203.09257v1 )

ライセンス: Link先を確認
Francesco Cappio Borlino, Silvia Bucci, Tatiana Tommasi(参考訳) 進化する能力は、知識が製造者が注入するものに限定されない貴重な自律エージェントにとって基本的なものである。 例えば、ホームアシスタントロボットを考えると、要求された時に新しいオブジェクトカテゴリを段階的に学習できるだけでなく、異なる環境(部屋)とポーズ(床/上/上家具)で同じオブジェクトを認識でき、未知のものも拒否できる。 その重要性にもかかわらず、このシナリオはロボットコミュニティへの関心を高め始めたばかりで、関連する研究はまだ初期段階にあり、既存の実験的なテストベッドは用意されていない。 本研究では,1つの対照的な目的を生かして,先に述べたすべての課題に同時に対処する,最初の学習手法を提案する。 我々は、新しいクラスをインクリメンタルに含むのに最適な機能空間をどのように学習するかを示し、様々なビジュアルドメインにまたがる知識をキャプチャする。 本手法は,学習エピソード毎に適応した効果的な停止基準を付与し,分類器に信頼性の高い拒否オプションを提供する新しい自己ペースのしきい値戦略を活用できる。 これらの貢献はどちらもデータ統計の観察に基づいており、手動のチューニングは必要ない。 広範な実験分析により,新たな最先端技術を確立するための提案手法の有効性が確認された。 コードはhttps://github.com/f rancescocappio/contr astive_open_worldで入手できる。

The ability to evolve is fundamental for any valuable autonomous agent whose knowledge cannot remain limited to that injected by the manufacturer. Consider for example a home assistant robot: it should be able to incrementally learn new object categories when requested, but also to recognize the same objects in different environments (rooms) and poses (hand-held/on the floor/above furniture), while rejecting unknown ones. Despite its importance, this scenario has started to raise interest in the robotic community only recently and the related research is still in its infancy, with existing experimental testbeds but no tailored methods. With this work, we propose the first learning approach that deals with all the previously mentioned challenges at once by exploiting a single contrastive objective. We show how it learns a feature space perfectly suitable to incrementally include new classes and is able to capture knowledge which generalizes across a variety of visual domains. Our method is endowed with a tailored effective stopping criterion for each learning episode and exploits a novel self-paced thresholding strategy that provides the classifier with a reliable rejection option. Both these contributions are based on the observation of the data statistics and do not need manual tuning. An extensive experimental analysis confirms the effectiveness of the proposed approach establishing the new state-of-the-art. The code is available at https://github.com/F rancescoCappio/Contr astive_Open_World.
翻訳日:2022-03-18 16:00:26 公開日:2022-03-17
# 観測学習による因果ロボットのコミュニケーション

Causal Robot Communication Inspired by Observational Learning Insights ( http://arxiv.org/abs/2203.09114v1 )

ライセンス: Link先を確認
Zhao Han, Boyoung Kim, Holly A. Yanco and Tom Williams(参考訳) 自律ロボットは、信頼と受け入れを得るために彼らの決定についてコミュニケーションする必要があります。 そのような場合、ロボットはどの行動が因果的か、すなわち、望まれる結果を直接引き起こすかを判断し、これらの動作を説明に含める必要がある。 心理学における行動学習では、行動系列におけるこのような推論は模倣学習の文脈で広く研究されている。 しかし、これらの技術と経験的洞察はヒト-ロボット相互作用(HRI)にはほとんど適用されない。 本稿では,ロボット意図コミュニケーションにおける行動学習的洞察の関連性について検討し,ロボットが行動系列における因果行動を選択的に説明することにより,その意図を効率的に伝達する上で,これらの洞察の第一の応用について述べる。

Autonomous robots must communicate about their decisions to gain trust and acceptance. When doing so, robots must determine which actions are causal, i.e., which directly give rise to the desired outcome, so that these actions can be included in explanations. In behavior learning in psychology, this sort of reasoning during an action sequence has been studied extensively in the context of imitation learning. And yet, these techniques and empirical insights are rarely applied to human-robot interaction (HRI). In this work, we discuss the relevance of behavior learning insights for robot intent communication, and present the first application of these insights for a robot to efficiently communicate its intent by selectively explaining the causal actions in an action sequence.
翻訳日:2022-03-18 15:58:12 公開日:2022-03-17
# インストゥルメンタル変数を用いたスパース因果効果の同定可能性

Identifiability of Sparse Causal Effects using Instrumental Variables ( http://arxiv.org/abs/2203.09380v1 )

ライセンス: Link先を確認
Niklas Pfister and Jonas Peters(参考訳) 例えば、器用変数の形で外因性不均一性は、システムの根底にある因果構造を学習し、目に見えない介入実験の結果を予測するのに役立つ。 本稿では,covariates $x$ からの応答 $y$ に対する因果効果がスパースである線形モデルを考える。 弱条件下では因果係数が識別可能であることが証明され、因果関係の親の数と同じくらい楽器の数が小さいモデルでも特定できる。 また、エッジ係数がルベーグ測度に対して絶対連続な分布からランダムにサンプリングされた場合、識別可能性が確率1で保持されるグラフィカルな基準を開発する。 推定器として spaceIV を提案し,モデルが同定可能であれば因果効果を常に推定し,その性能をシミュレーションデータ上で評価する。

Exogenous heterogeneity, for example, in the form of instrumental variables can help us learn a system's underlying causal structure and predict the outcome of unseen intervention experiments. In this paper, we consider linear models in which the causal effect from covariates $X$ on a response $Y$ is sparse. We prove that the causal coefficient becomes identifiable under weak conditions and may even be identified in models, where the number of instruments is as small as the number of causal parents. We also develop graphical criteria under which the identifiability holds with probability one if the edge coefficients are sampled randomly from a distribution that is absolutely continuous with respect to Lebesgue measure. As an estimator, we propose spaceIV and prove that it consistently estimates the causal effect if the model is identifiable and evaluate its performance on simulated data.
翻訳日:2022-03-18 15:58:00 公開日:2022-03-17
# 深変動モンテカルロにおける電子励起状態

Electronic excited states in deep variational Monte Carlo ( http://arxiv.org/abs/2203.09472v1 )

ライセンス: Link先を確認
Mike Entwistle, Zeno Sch\"atzle, Paolo A. Erdman, Jan Hermann, Frank No\'e(参考訳) 電子システムの正確な基底状態と低次励起状態を得ることは、多くの重要な応用において重要である。 大規模なシステムに好適なスケールで精度が制限される電子的シュリンガー方程式を解くための ab initio 法は変分量子モンテカルロ (QMC) である。 最近導入されたディープqmcアプローチは、ディープニューラルネットワークで表現される新しいタイプのアンサtzeを使用しており、数十個の電子を含む分子に対してほぼ正確な基底状態の解を生成することが示されている。 本稿では,そのようなアンサッツ(PauliNet)を推し進め,簡単な変分法により電子励起状態を計算する。 我々は, 種々の小原子や分子に対して, 低次状態に対して高い精度を一貫して達成する手法を実証する。 より大きな系に対する方法のポテンシャルを強調するため、ベンゼン分子の場合、ポーリネットは励起エネルギーの点でかなり高価な高レベル電子構造法と同等であり、絶対エネルギーの点でそれを上回ることを示した。

Obtaining accurate ground and low-lying excited states of electronic systems is crucial in a multitude of important applications. One ab initio method for solving the electronic Schr\"odinger equation that scales favorably for large systems and whose accuracy is limited only by the choice of wavefunction ansatz employed is variational quantum Monte Carlo (QMC). The recently introduced deep QMC approach, using a new class of ansatzes represented by deep neural networks, has been shown to generate nearly exact ground-state solutions for molecules containing up to a few dozen electrons, with the potential to scale to much larger systems where other highly accurate methods are not feasible. In this paper, we advance one such ansatz (PauliNet) to compute electronic excited states through a simple variational procedure. We demonstrate our method on a variety of small atoms and molecules where we consistently achieve high accuracy for low-lying states. To highlight the method's potential for larger systems, we show that for the benzene molecule, PauliNet is on par with significantly more expensive high-level electronic structure methods in terms of the excitation energy and outperforms them in terms of absolute energies.
翻訳日:2022-03-18 15:57:44 公開日:2022-03-17
# ラベル効率fMRI解析のための時間自己教師型学習のためのグラフCCA

GATE: Graph CCA for Temporal SElf-supervised Learning for Label-efficient fMRI Analysis ( http://arxiv.org/abs/2203.09034v1 )

ライセンス: Link先を確認
Liang Peng, Nan Wang, Jie Xu, Xiaofeng Zhu, and Xiaoxiao Li(参考訳) 本研究では,機能的磁気共鳴画像(fMRI)を用いた脳神経障害分類の課題に焦点をあてる。 人口グラフに基づく疾患解析では、グラフ畳み込みニューラルネットワーク(GCN)が顕著に成功している。 しかし、これらの成果は豊富なラベル付きデータと区別できず、スプリアス信号に敏感である。 ラベル効率の高い環境下でのfMRI表現学習と分類を改善するために,GCN上の新しい理論駆動型自己教師学習(SSL)フレームワーク,すなわち,fMRI解析GATEにおける時間的自己教師学習のためのグラフCCAを提案する。 具体的には、fMRIの生成とロバストな特徴を抽出するために、適切な効果的なSSL戦略を設計する必要がある。 そこで本研究では, SSL トレーニングのための fMRI dynamic functional connectives (FC) のグラフ拡張戦略について検討する。 さらに, 時間的埋め込みに標準相関解析(CCA)を適用し, 理論的意義を示す。 これにより、新しい2段階のGCN学習手順が得られる。 (i)未ラベルfMRI人口グラフ上のSSL (II)分類タスクのための小さなラベル付きfMRIデータセットの微調整。 本手法は2つの独立したfMRIデータセットを用いて,自閉症と認知症診断における優れた性能を示す。

In this work, we focus on the challenging task, neuro-disease classification, using functional magnetic resonance imaging (fMRI). In population graph-based disease analysis, graph convolutional neural networks (GCNs) have achieved remarkable success. However, these achievements are inseparable from abundant labeled data and sensitive to spurious signals. To improve fMRI representation learning and classification under a label-efficient setting, we propose a novel and theory-driven self-supervised learning (SSL) framework on GCNs, namely Graph CCA for Temporal self-supervised learning on fMRI analysis GATE. Concretely, it is demanding to design a suitable and effective SSL strategy to extract formation and robust features for fMRI. To this end, we investigate several new graph augmentation strategies from fMRI dynamic functional connectives (FC) for SSL training. Further, we leverage canonical-correlatio n analysis (CCA) on different temporal embeddings and present the theoretical implications. Consequently, this yields a novel two-step GCN learning procedure comprised of (i) SSL on an unlabeled fMRI population graph and (ii) fine-tuning on a small labeled fMRI dataset for a classification task. Our method is tested on two independent fMRI datasets, demonstrating superior performance on autism and dementia diagnosis.
翻訳日:2022-03-18 15:54:22 公開日:2022-03-17
# PiDAn:ディープニューラルネットワークにおけるバックドア攻撃検出と緩和のためのコヒーレンス最適化手法

PiDAn: A Coherence Optimization Approach for Backdoor Attack Detection and Mitigation in Deep Neural Networks ( http://arxiv.org/abs/2203.09289v1 )

ライセンス: Link先を確認
Yue Wang, Wenqing Li, Esha Sarkar, Muhammad Shafique, Michail Maniatakos, Saif Eddin Jabari(参考訳) バックドア攻撃はDeep Neural Networks(DNN)において新たな脅威となり、トレーニングデータセットを汚染し、敵のトリガーを含む入力を誤分類することで、バックドアをニューラルネットワークに挿入する。 これらの攻撃に対して防御する上で大きな課題は、攻撃者だけが秘密のトリガーとターゲットクラスを知っていることである。 この問題は、最近の"Hidden Triggers"の導入によってさらに悪化し、インプットにトリガーを慎重に融合させ、人間の検査による検出を回避し、異常検出によるバックドア識別を失敗させる。 このような不可避な攻撃から守るため、本研究では、トレーニングデータを入力として使用する場合、所定のdnnのニューロン活性化のセットがどのようにバックドア攻撃の影響を受けるかを体系的に分析する。 本稿では,コヒーレンス最適化に基づく害データ浄化アルゴリズムPiDAnを提案する。 対象クラスにおける有毒データと認証データの表現は, いまだに異なる線形部分空間に埋め込まれており, 潜在空間とのコヒーレンスが異なることを示している。 この観測に基づいて,提案アルゴリズムは,標本量ベクトルを学習して重み付きサンプルの投影されたコヒーレンスを最大化し,学習した重みベクトルが自然な「グループ化効果」を持ち,真性データと有毒データとを区別可能であることを示す。 これにより、バックドア攻撃の体系的な検出と緩和が可能になる。 GTSRBおよびILSVRC2012データセット上の有毒試料の異なる設定を用いたバックドア攻撃に対するPiDAnの有効性を理論的に検証した。 当社のPiDAnアルゴリズムは90%以上の感染クラスを検出でき、95%の有毒サンプルを識別できる。

Backdoor attacks impose a new threat in Deep Neural Networks (DNNs), where a backdoor is inserted into the neural network by poisoning the training dataset, misclassifying inputs that contain the adversary trigger. The major challenge for defending against these attacks is that only the attacker knows the secret trigger and the target class. The problem is further exacerbated by the recent introduction of "Hidden Triggers", where the triggers are carefully fused into the input, bypassing detection by human inspection and causing backdoor identification through anomaly detection to fail. To defend against such imperceptible attacks, in this work we systematically analyze how representations, i.e., the set of neuron activations for a given DNN when using the training data as inputs, are affected by backdoor attacks. We propose PiDAn, an algorithm based on coherence optimization purifying the poisoned data. Our analysis shows that representations of poisoned data and authentic data in the target class are still embedded in different linear subspaces, which implies that they show different coherence with some latent spaces. Based on this observation, the proposed PiDAn algorithm learns a sample-wise weight vector to maximize the projected coherence of weighted samples, where we demonstrate that the learned weight vector has a natural "grouping effect" and is distinguishable between authentic data and poisoned data. This enables the systematic detection and mitigation of backdoor attacks. Based on our theoretical analysis and experimental results, we demonstrate the effectiveness of PiDAn in defending against backdoor attacks that use different settings of poisoned samples on GTSRB and ILSVRC2012 datasets. Our PiDAn algorithm can detect more than 90% infected classes and identify 95% poisoned samples.
翻訳日:2022-03-18 15:54:04 公開日:2022-03-17
# 確率的モノトン包摂問題に対する可変化を用いた確率的ハルパーン反復法

A Stochastic Halpern Iteration with Variance Reduction for Stochastic Monotone Inclusion Problems ( http://arxiv.org/abs/2203.09436v1 )

ライセンス: Link先を確認
Xufeng Cai, Chaobing Song, Crist\'obal Guzm\'an, Jelena Diakonikolas(参考訳) 本研究では,ロバスト回帰や逆行学習など,機械学習アプリケーションで広く見られる確率的単調包含問題について検討する。 再帰的分散還元を伴う確率的ハルパーン反復の新たな変種を提案する。 コヒーレンシブ -- より一般的にはリプシッツモノトン -- のセットアップにおいて、我々のアルゴリズムは、演算子のノルムを$\mathcal{O}(\frac{1}{\epsilon^3})$確率演算子評価で達成し、同じ問題クラスに適用された既存の単調包含分解器に必要な確率演算子評価を$\mathcal{O}(\frac{1}{\epsilon^4})$確率演算子評価で大幅に改善する。 さらに、提案された確率的ハルパーン反復の1つの変種を、追加のシャープネスや強い単調性仮定の下での確率的作用素評価で${\mathcal{O}}(\frac{\log(1/\epsilon)}{\epsilon^2})で確率的単調包含問題を解くためにスケジュールされた再起動スキームと組み合わせる方法を示す。 最後に、我々の確率的オラクル複雑性境界が、それらの$\epsilon$-dependenc eの対数的因子に強く依存しているという、異なる問題クラス間の還元を通じて議論する。

We study stochastic monotone inclusion problems, which widely appear in machine learning applications, including robust regression and adversarial learning. We propose novel variants of stochastic Halpern iteration with recursive variance reduction. In the cocoercive -- and more generally Lipschitz-monotone -- setup, our algorithm attains $\epsilon$ norm of the operator with $\mathcal{O}(\frac{1}{\epsilon^3})$ stochastic operator evaluations, which significantly improves over state of the art $\mathcal{O}(\frac{1}{\epsilon^4})$ stochastic operator evaluations required for existing monotone inclusion solvers applied to the same problem classes. We further show how to couple one of the proposed variants of stochastic Halpern iteration with a scheduled restart scheme to solve stochastic monotone inclusion problems with ${\mathcal{O}}(\frac{\log(1/\epsilon)}{\epsilon^2})$ stochastic operator evaluations under additional sharpness or strong monotonicity assumptions. Finally, we argue via reductions between different problem classes that our stochastic oracle complexity bounds are tight up to logarithmic factors in terms of their $\epsilon$-dependenc e.
翻訳日:2022-03-18 15:53:32 公開日:2022-03-17
# 多相画像分割のための局所変動力項付きアクティブ輪郭モデルとその最適最小化解法

An Active Contour Model with Local Variance Force Term and Its Efficient Minimization Solver for Multi-phase Image Segmentation ( http://arxiv.org/abs/2203.09036v1 )

ライセンス: Link先を確認
Chaoyu Liu, Zhonghua Qiao, and Qian Zhang(参考訳) 本稿では,多相画像分割問題に適用可能な局所分散力(lvf)項を有するアクティブ輪郭モデルを提案する。 lvfでは,提案手法は雑音を伴う画像のセグメンテーションに非常に有効である。 このモデルを効率的に解くために,特徴関数による正規化項を表現し,反復的畳み込み保持法(ICTM-LVF)の修正に基づく最小化アルゴリズムを設計する。 この最小化アルゴリズムは、いくつかの条件下でのエネルギー劣化特性を享受し、セグメンテーションにおいて高い効率性能を有する。 アクティブな輪郭モデルの初期化問題を克服するため、不均一グラフラプラシアン初期化法(IGLIM)を多相ケースに一般化し、ICTM-LVFソルバの初期輪郭を与える。 合成画像と実画像を用いて数値実験を行い, 初期化法の有効性と, 多相画像分割における局所分散力の有効性を実証した。

In this paper, we propose an active contour model with a local variance force (LVF) term that can be applied to multi-phase image segmentation problems. With the LVF, the proposed model is very effective in the segmentation of images with noise. To solve this model efficiently, we represent the regularization term by characteristic functions and then design a minimization algorithm based on a modification of the iterative convolution-threshol ding method (ICTM), namely ICTM-LVF. This minimization algorithm enjoys the energy-decaying property under some conditions and has highly efficient performance in the segmentation. To overcome the initialization issue of active contour models, we generalize the inhomogeneous graph Laplacian initialization method (IGLIM) to the multi-phase case and then apply it to give the initial contour of the ICTM-LVF solver. Numerical experiments are conducted on synthetic images and real images to demonstrate the capability of our initialization method, and the effectiveness of the local variance force for noise robustness in the multi-phase image segmentation.
翻訳日:2022-03-18 15:51:37 公開日:2022-03-17
# TMS: 話者埋め込みのための一時的マルチスケールバックボーン設計

TMS: A Temporal Multi-scale Backbone Design for Speaker Embedding ( http://arxiv.org/abs/2203.09098v1 )

ライセンス: Link先を確認
Ruiteng Zhang, Jianguo Wei, Xugang Lu, Wenhuan Lu, Di Jin, Junhai Xu, Lin Zhang, Yantao Ji, Jianwu Dang(参考訳) 話者埋め込みは、話者情報が必要な多くの音声アプリケーションにおいて、差別的な話者特徴を探索する重要なフロントエンドモジュールである。 話者埋め込みのための現在のSOTAバックボーンネットワークは、話者表現のためのマルチブランチネットワークアーキテクチャを用いた発話からマルチスケール特徴を集約するように設計されている。 しかし, モデルパラメータの急激な増加と計算複雑性のため, 単純な完全畳み込み演算によるマルチスケール機能の追加は, 効率向上には至らなかった。 したがって、最先端のネットワークアーキテクチャでは、限られた数の時間スケールに対応する分枝のみが話者埋め込み用に設計できる。 本稿では, 話者埋め込みネットワークにおいて, 計算コストの増大を伴わずに, マルチスケール分岐を効率的に設計できる効果的な時間的マルチスケール(TMS)モデルを提案する。 新しいモデルは従来のtdnnに基づいており、ネットワークアーキテクチャはチャネルモデリングオペレータと時間的マルチブランチモデリングオペレータという2つのモデリングオペレータにスマートに分離されている。 時間的マルチブランチ演算子に時間的マルチスケールを追加するには、パラメータの数をほんの少し増やすだけでよい。 さらに,推定段階において,tmsに基づくモデルを単一経路に基づくトポロジーに変換するシステム的再パラメータ化法を更に開発し,推定速度を増加させた。 ドメイン内および外部条件における自動話者検証(ASV)のための新しいTMS法の性能について検討した。 その結果、TMSモデルではSOTA ASVモデルよりも性能が大幅に向上し、高速な推論速度が得られた。

Speaker embedding is an important front-end module to explore discriminative speaker features for many speech applications where speaker information is needed. Current SOTA backbone networks for speaker embedding are designed to aggregate multi-scale features from an utterance with multi-branch network architectures for speaker representation. However, naively adding many branches of multi-scale features with the simple fully convolutional operation could not efficiently improve the performance due to the rapid increase of model parameters and computational complexity. Therefore, in the most current state-of-the-art network architectures, only a few branches corresponding to a limited number of temporal scales could be designed for speaker embeddings. To address this problem, in this paper, we propose an effective temporal multi-scale (TMS) model where multi-scale branches could be efficiently designed in a speaker embedding network almost without increasing computational costs. The new model is based on the conventional TDNN, where the network architecture is smartly separated into two modeling operators: a channel-modeling operator and a temporal multi-branch modeling operator. Adding temporal multi-scale in the temporal multi-branch operator needs only a little bit increase of the number of parameters, and thus save more computational budget for adding more branches with large temporal scales. Moreover, in the inference stage, we further developed a systemic re-parameterization method to convert the TMS-based model into a single-path-based topology in order to increase inference speed. We investigated the performance of the new TMS method for automatic speaker verification (ASV) on in-domain and out-of-domain conditions. Results show that the TMS-based model obtained a significant increase in the performance over the SOTA ASV models, meanwhile, had a faster inference speed.
翻訳日:2022-03-18 15:50:20 公開日:2022-03-17
# 境界データに基づくパラメトリック三次元流れ予測のための物理インフォームド深層学習の検討

Investigation of Physics-Informed Deep Learning for the Prediction of Parametric, Three-Dimensional Flow Based on Boundary Data ( http://arxiv.org/abs/2203.09204v1 )

ライセンス: Link先を確認
Philip Heger, Markus Full, Daniel Hilger, Norbert Hosters(参考訳) 温度に敏感で安全に重要な部品の配置は、自動車産業にとって極めて重要である。 したがって、新しい車両の設計段階でも、これらの部品が潜在的な安全性の問題で評価されることは避けられない。 しかし、設計提案の増加に伴い、リスク評価は急速に高価になる。 そこで, 熱水車シミュレーションにおける3次元流れ場予測のためのパラメータ化代理モデルを提案する。 物理インフォームドニューラルネットワーク (PINN) の設計は, 幾何学的変動に応じて流れ解の族を学習することを目的としている。 この研究の範囲内で、我々の非次元多変量スキームは、異なる設計シナリオと幾何スケールに対する速度と圧力分布を効率的に予測できることを示すことができる。 提案手法は,3次元フローモデリングに必要な大規模データセットの利用を可能にするパラメトリックミニバッチトレーニングに基づいている。 さらに,1つの静的データセット上で動作可能な連続再サンプリングアルゴリズムを提案する。 提案手法のすべての特徴を個別に検証し,従来のCFDシミュレーションと比較した。 最後に,本手法を実世界の自動車応用例の文脈に適用する。

The placement of temperature sensitive and safety-critical components is crucial in the automotive industry. It is therefore inevitable, even at the design stage of new vehicles that these components are assessed for potential safety issues. However, with increasing number of design proposals, risk assessment quickly becomes expensive. We therefore present a parameterized surrogate model for the prediction of three-dimensional flow fields in aerothermal vehicle simulations. The proposed physics-informed neural network (PINN) design is aimed at learning families of flow solutions according to a geometric variation. In scope of this work, we could show that our nondimensional, multivariate scheme can be efficiently trained to predict the velocity and pressure distribution for different design scenarios and geometric scales. The proposed algorithm is based on a parametric minibatch training which enables the utilization of large datasets necessary for the three-dimensional flow modeling. Further, we introduce a continuous resampling algorithm that allows to operate on one static dataset. Every feature of our methodology is tested individually and verified against conventional CFD simulations. Finally, we apply our proposed method in context of an exemplary real-world automotive application.
翻訳日:2022-03-18 15:49:54 公開日:2022-03-17
# (参考訳) 非自己回帰モデルを用いたテキスト編集のための模倣学習カリキュラム [全文訳有]

An Imitation Learning Curriculum for Text Editing with Non-Autoregressive Models ( http://arxiv.org/abs/2203.09486v1 )

ライセンス: CC BY 4.0
Sweta Agrawal and Marine Carpuat(参考訳) 本稿では,タスク編集のための非自己回帰シーケンスからシーケンスへのモデルを学習するためのフレームワークを提案する。 機械翻訳のためにそのようなモデルを訓練するために設計された模倣学習アルゴリズムは、トレーニングと推論のミスマッチを導入し、編集シナリオにおける過小評価と一般化の欠如をもたらすことを示す。 この問題に2つの補完戦略で対処する。 1) 推論中に遭遇する可能性が高い中間のトレーニングシーケンスにモデルを公開するロールインポリシ。 2)学習が容易な編集操作を最初に提示するカリキュラムは,モデルが有能になるにつれて,トレーニングサンプルの難しさを徐々に高めていく。 制御可能なテキストの単純化と抽象的な要約という2つの難解な英語編集作業に対して,これらの戦略の有効性を示す。 提案手法は,タスクの出力品質を大幅に改善し,単純化タスクの出力複雑性を向上する。

We propose a framework for training non-autoregressive sequence-to-sequence models for editing tasks, where the original input sequence is iteratively edited to produce the output. We show that the imitation learning algorithms designed to train such models for machine translation introduces mismatches between training and inference that lead to undertraining and poor generalization in editing scenarios. We address this issue with two complementary strategies: 1) a roll-in policy that exposes the model to intermediate training sequences that it is more likely to encounter during inference, 2) a curriculum that presents easy-to-learn edit operations first, gradually increasing the difficulty of training samples as the model becomes competent. We show the efficacy of these strategies on two challenging English editing tasks: controllable text simplification and abstractive summarization. Our approach significantly improves output quality on both tasks and controls output complexity better on the simplification task.
翻訳日:2022-03-18 15:48:10 公開日:2022-03-17
# パノフォーマー:室内360{\deg}深度推定用パノラマ変圧器

PanoFormer: Panorama Transformer for Indoor 360{\deg} Depth Estimation ( http://arxiv.org/abs/2203.09283v1 )

ライセンス: Link先を確認
Zhijie Shen, Chunyu Lin, Kang Liao, Lang Nie, Zishuo Zheng, and Yao Zhao(参考訳) 畳み込みニューラルネットワーク(CNN)に基づく既存のパノラマ深度推定手法は、パノラマ歪みの除去に重点を置いており、CNNの固定受容場によりパノラマ構造を効率的に知覚できない。 本稿では,球面領域からの接パッチ,学習可能なトークンフロー,パノラマ特定指標を用いて,パノラマ画像の深さを推定するパノラマトランス(panoformer)を提案する。 特に、球面接領域のパッチをトークンに分割することで、パノラマ歪みの負の効果を減少させる。 幾何構造は深さ推定に必須であるため、セルフアテンションモジュールは追加の学習可能なトークンフローで再設計される。 さらに, 球面領域の特性を考慮し, パノラマ特異的な2つの指標を用いてパノラマ深度推定モデルの性能を総合的に評価する。 大規模な実験により,本手法は最先端技術(SOTA)法を著しく上回っていることが示された。 さらに,提案手法を有効に拡張して,類似のピクセル2ピクセルタスクであるセマンティックパノラマセグメンテーションを解決できる。 コードは利用可能だ。

Existing panoramic depth estimation methods based on convolutional neural networks (CNNs) focus on removing panoramic distortions, failing to perceive panoramic structures efficiently due to the fixed receptive field in CNNs. This paper proposes the panorama transformer (named PanoFormer) to estimate the depth in panorama images, with tangent patches from spherical domain, learnable token flows, and panorama specific metrics. In particular, we divide patches on the spherical tangent domain into tokens to reduce the negative effect of panoramic distortions. Since the geometric structures are essential for depth estimation, a self-attention module is redesigned with an additional learnable token flow. In addition, considering the characteristic of the spherical domain, we present two panorama-specific metrics to comprehensively evaluate the panoramic depth estimation models' performance. Extensive experiments demonstrate that our approach significantly outperforms the state-of-the-art (SOTA) methods. Furthermore, the proposed method can be effectively extended to solve semantic panorama segmentation, a similar pixel2pixel task. Code will be available.
翻訳日:2022-03-18 15:27:06 公開日:2022-03-17
# hybridcap:ヒトの運動に挑戦する慣性・aidモノクロキャプチャー

HybridCap: Inertia-aid Monocular Capture of Challenging Human Motions ( http://arxiv.org/abs/2203.09287v1 )

ライセンス: Link先を確認
Han Liang, Yannan He, Chengfeng Zhao, Mutian Li, Jingya Wang, Jingyi Yu, Lan Xu(参考訳) 単眼3次元モーションキャプチャ(mocap)は多くの応用に有用である。 しかし、単一のカメラを使うことは、しばしば異なる身体部位の閉塞を処理できないため、比較的単純な動きを捉えることが制限される。 学習と最適化のフレームワークで4つの慣性計測ユニット(IMU)でカメラを増強するHybridCapと呼ばれる軽量ハイブリッドモキャップ技術を提案する。 まず,手足,体,根を追跡する協調ゲート・リカレント・ユニット(gru)ブロックと逆キネマティックス・ソルバを基本とした,弱い教師付き階層的モーション推論モジュールを用いた。 提案ネットワークは,粗いポーズ推定による可塑性運動の探索空間を効果的に制限し,高い効率で挑戦運動に取り組む。 さらに,慣性フィードバックと視覚手がかりを組み合わせたハイブリッド最適化手法を開発し,追跡精度を向上させる。 さまざまなデータセットに関する大規模な実験では、HybridCapがフィットネスアクションからラテンダンスまで、困難な動きを堅牢に処理できることが示されている。 また、最先端の精度で60fpsまでのリアルタイムパフォーマンスを実現している。

Monocular 3D motion capture (mocap) is beneficial to many applications. The use of a single camera, however, often fails to handle occlusions of different body parts and hence it is limited to capture relatively simple movements. We present a light-weight, hybrid mocap technique called HybridCap that augments the camera with only 4 Inertial Measurement Units (IMUs) in a learning-and-optimiz ation framework. We first employ a weakly-supervised and hierarchical motion inference module based on cooperative Gated Recurrent Unit (GRU) blocks that serve as limb, body and root trackers as well as an inverse kinematics solver. Our network effectively narrows the search space of plausible motions via coarse-to-fine pose estimation and manages to tackle challenging movements with high efficiency. We further develop a hybrid optimization scheme that combines inertial feedback and visual cues to improve tracking accuracy. Extensive experiments on various datasets demonstrate HybridCap can robustly handle challenging movements ranging from fitness actions to Latin dance. It also achieves real-time performance up to 60 fps with state-of-the-art accuracy.
翻訳日:2022-03-18 15:26:45 公開日:2022-03-17
# 大シフトバースト画像再構成のための2段階アライメント法

A Differentiable Two-stage Alignment Scheme for Burst Image Reconstruction with Large Shift ( http://arxiv.org/abs/2203.09294v1 )

ライセンス: Link先を確認
Shi Guo, Xi Yang, Jianqi Ma, Gaofeng Ren, Lei Zhang(参考訳) denoisingとdemosaickingは、生データからクリーンなフルカラー画像を再構築するための2つの重要なステップだ。 近年,バースト画像に対するjdd(joint denoising and demosaicking)とjdd-b(joint denoising and demosaicking)の併用が注目されている。 JDD-Bの重要な課題は、画像フレームのロバストなアライメントにある。 特徴領域における最先端アライメント手法は、カメラや物体の動きによる大きなシフトが存在するバースト画像の時間的情報を有効に利用できない。 さらに、現代の撮像装置の高分解能(例えば4k)はフレーム間の変位を増大させる。 これらの課題に対処するため、有効なJDD-Bのための2段階アライメント方式をパッチレベルとピクセルレベルで逐次設計する。 入力バースト画像は、遠隔フレーム間のオフセットを少ない計算コストで推定できる微分可能なプログレッシブブロックマッチング法を用いて、最初にパッチレベルでアライメントされる。 そして、全解像度特徴領域で暗黙的な画素ワイドアライメントを行い、アライメント結果を洗練する。 2つの段階はエンドツーエンドで共同で訓練される。 実験により既存のJDD-B法よりも大幅に改善した。 コードはhttps://github.com/G uoShi28/2StageAlignで入手できる。

Denoising and demosaicking are two essential steps to reconstruct a clean full-color image from the raw data. Recently, joint denoising and demosaicking (JDD) for burst images, namely JDD-B, has attracted much attention by using multiple raw images captured in a short time to reconstruct a single high-quality image. One key challenge of JDD-B lies in the robust alignment of image frames. State-of-the-art alignment methods in feature domain cannot effectively utilize the temporal information of burst images, where large shifts commonly exist due to camera and object motion. In addition, the higher resolution (e.g., 4K) of modern imaging devices results in larger displacement between frames. To address these challenges, we design a differentiable two-stage alignment scheme sequentially in patch and pixel level for effective JDD-B. The input burst images are firstly aligned in the patch level by using a differentiable progressive block matching method, which can estimate the offset between distant frames with small computational cost. Then we perform implicit pixel-wise alignment in full-resolution feature domain to refine the alignment results. The two stages are jointly trained in an end-to-end manner. Extensive experiments demonstrate the significant improvement of our method over existing JDD-B methods. Codes are available at https://github.com/G uoShi28/2StageAlign.
翻訳日:2022-03-18 15:26:26 公開日:2022-03-17
# 生成モデルを用いた3次元メッシュの詳細なテクスチャ学習

Fine Detailed Texture Learning for 3D Meshes with Generative Models ( http://arxiv.org/abs/2203.09362v1 )

ライセンス: Link先を確認
Aysegul Dundar, Jun Gao, Andrew Tao, Bryan Catanzaro(参考訳) 本稿では,マルチビュー画像とシングルビュー画像から高品質なテクスチャ3Dモデルを再構成する手法を提案する。 再構成は適応問題として提起され,第1段階では正確な幾何学の学習に焦点が当てられ,第2段階では生成的対角ネットワークによるテクスチャの学習に焦点が当てられている。 生成学習パイプラインでは,2つの改善を提案する。 まず,学習したテクスチャを空間的に整列させるため,学習可能な画素の位置に依存する注意機構を提案する。 第2に、識別器は整列したテクスチャマップを受信するため、学習可能な埋め込みにより入力を増強し、ジェネレータへのフィードバックを改善する。 我々は、Tripodデータセットからのマルチビューシーケンスと、単一ビューイメージデータセット、Pascal 3D+、CUBの大幅な改善を実現した。 本手法は従来の手法に比べて優れた3次元テクスチャモデルを実現する。 3Dヴィジュアライズのために私たちのWebページを訪れてください。

This paper presents a method to reconstruct high-quality textured 3D models from both multi-view and single-view images. The reconstruction is posed as an adaptation problem and is done progressively where in the first stage, we focus on learning accurate geometry, whereas in the second stage, we focus on learning the texture with a generative adversarial network. In the generative learning pipeline, we propose two improvements. First, since the learned textures should be spatially aligned, we propose an attention mechanism that relies on the learnable positions of pixels. Secondly, since discriminator receives aligned texture maps, we augment its input with a learnable embedding which improves the feedback to the generator. We achieve significant improvements on multi-view sequences from Tripod dataset as well as on single-view image datasets, Pascal 3D+ and CUB. We demonstrate that our method achieves superior 3D textured models compared to the previous works. Please visit our web-page for 3D visuals.
翻訳日:2022-03-18 15:26:01 公開日:2022-03-17
# 双方向画像再構成のためのインタラクションアテンショングラフ

Interacting Attention Graph for Single Image Two-Hand Reconstruction ( http://arxiv.org/abs/2203.09364v1 )

ライセンス: Link先を確認
Mengcheng Li, Liang An, Hongwen Zhang, Lianpeng Wu, Feng Chen, Tao Yu, Yebin Liu(参考訳) グラフ畳み込みネットワーク (gcn) は, 片手復元作業において大きな成功を収めているが, gcnによる双方向再構成の相互作用は未検討のままである。 本稿では、1つのRGB画像から2つのインタラクションハンドを再構成する最初のグラフ畳み込みネットワークであるInteracting Attention Graph Hand(IntagHand)を提案する。 両手再建における咬合・相互作用の課題を解決するため,元のGCNの各アップサンプリングステップに2つの新しい注意ベースモジュールを導入する。 最初のモジュールは、多解像度機能を利用して暗黙的に頂点対像アライメントを得るピラミッド画像特徴アテンション(PIFA)モジュールである。 第2のモジュールは、交差注意モジュール(CHA)であり、2つの手頂点間の密接な交差注意を構築することで、相互作用する手のコヒーレンスを符号化する。 その結果,本モデルはinterhand2.6mベンチマークにおいて,既存の2手法を大差で上回った。 さらに, 再建精度を向上させるため, PIFAおよびCHAモジュールの有効性について検討した。 In-the-wild画像の結果はさらに,ネットワークの一般化能力を示している。 私たちのコードはhttps://github.com/d w1010/intaghand.comで利用可能です。

Graph convolutional network (GCN) has achieved great success in single hand reconstruction task, while interacting two-hand reconstruction by GCN remains unexplored. In this paper, we present Interacting Attention Graph Hand (IntagHand), the first graph convolution based network that reconstructs two interacting hands from a single RGB image. To solve occlusion and interaction challenges of two-hand reconstruction, we introduce two novel attention based modules in each upsampling step of the original GCN. The first module is the pyramid image feature attention (PIFA) module, which utilizes multiresolution features to implicitly obtain vertex-to-image alignment. The second module is the cross hand attention (CHA) module that encodes the coherence of interacting hands by building dense cross-attention between two hand vertices. As a result, our model outperforms all existing two-hand reconstruction methods by a large margin on InterHand2.6M benchmark. Moreover, ablation studies verify the effectiveness of both PIFA and CHA modules for improving the reconstruction accuracy. Results on in-the-wild images further demonstrate the generalization ability of our network. Our code is available at https://github.com/D w1010/IntagHand.
翻訳日:2022-03-18 15:25:46 公開日:2022-03-17
# Dense-Scale Feature FusionとPixel-Level不均衡学習に基づく一段階深度検出

One-Stage Deep Edge Detection Based on Dense-Scale Feature Fusion and Pixel-Level Imbalance Learning ( http://arxiv.org/abs/2203.09387v1 )

ライセンス: Link先を確認
Dawei Dai, Chunjie Wang, Shuyin Xia, Yingge Liu, Guoyin Wang(参考訳) エッジ検出はコンピュータビジョンの分野における基本的なタスクであり、視覚シーンの認識と理解のための重要な前処理操作である。 従来のモデルでは、生成したエッジ画像はあいまいであり、エッジラインも非常に厚く、通常、鮮明で薄いエッジ画像を生成するために、非最大抑圧(NMS)と形態的縮小操作を必要とする。 本稿では,ポストプロセッシングをすることなく高品質なエッジ画像を生成する1段階ニューラルネットワークモデルを提案する。 提案手法では,プリトレーニングニューラルネットワークをエンコーダとして使用する古典的なエンコーダ・デコーダフレームワークと,学習可能なデコーダとして各レベルの特徴を融合するマルチ機能融合機構を採用する。 さらに、真正(TP)エッジ近傍の偽正(FP)エッジ情報と偽負(FN)非エッジを抑えることにより、エッジ画像の画素レベルの不均衡に対処する新たな損失関数を提案する。 複数のベンチマークデータセットで行った実験の結果から,提案手法はnmsや形態的薄型化操作を用いずに最先端の結果が得られることがわかった。

Edge detection, a basic task in the field of computer vision, is an important preprocessing operation for the recognition and understanding of a visual scene. In conventional models, the edge image generated is ambiguous, and the edge lines are also very thick, which typically necessitates the use of non-maximum suppression (NMS) and morphological thinning operations to generate clear and thin edge images. In this paper, we aim to propose a one-stage neural network model that can generate high-quality edge images without postprocessing. The proposed model adopts a classic encoder-decoder framework in which a pre-trained neural model is used as the encoder and a multi-feature-fusion mechanism that merges the features of each level with each other functions as a learnable decoder. Further, we propose a new loss function that addresses the pixel-level imbalance in the edge image by suppressing the false positive (FP) edge information near the true positive (TP) edge and the false negative (FN) non-edge. The results of experiments conducted on several benchmark datasets indicate that the proposed method achieves state-of-the-art results without using NMS and morphological thinning operations.
翻訳日:2022-03-18 15:25:27 公開日:2022-03-17
# 空間変形ロバストなシーンテキスト画像の超解像のためのテキスト注意ネットワーク

A Text Attention Network for Spatial Deformation Robust Scene Text Image Super-resolution ( http://arxiv.org/abs/2203.09388v1 )

ライセンス: Link先を確認
Jianqi Ma, Zhetong Liang, Lei Zhang(参考訳) シーンテキスト画像は低解像度画像におけるテキストの解像度と可読性を高めることを目的としている。 深層畳み込みニューラルネットワーク(cnns)によって大きな改善がなされているが、空間的に変形したテキスト、特に回転および曲線状のテキストの高解像度画像の再構築は困難である。 これは、現在のCNNベースの手法が局所性に基づく操作を採用するためであり、変形による変動に対処するには有効ではない。 本稿では,CNN ベースの Text ATTention Network (TATT) を提案し,この問題に対処する。 テキストのセマンティクスは、まずテキスト事前情報としてテキスト認識モジュールによって抽出される。 次に,グローバル・アテンション・メカニズムを活用した新しいトランスフォーマティブ・モジュールの設計を行い,テキスト再構成プロセスに先立ってテキストの意味的指導を行う。 さらに,正規および変形したテキストの再構成に構造的整合性を与えることにより,視覚的外観を洗練させるテキスト構造整合性損失を提案する。 ベンチマークのTextZoomデータセットの実験では、提案したTATTはPSNR/SSIMの指標から最先端のパフォーマンスを達成するだけでなく、下流のテキスト認識タスクにおける認識精度を大幅に向上させる。 コードはhttps://github.com/m jq11302010044/TATTで入手できる。

Scene text image super-resolution aims to increase the resolution and readability of the text in low-resolution images. Though significant improvement has been achieved by deep convolutional neural networks (CNNs), it remains difficult to reconstruct high-resolution images for spatially deformed texts, especially rotated and curve-shaped ones. This is because the current CNN-based methods adopt locality-based operations, which are not effective to deal with the variation caused by deformations. In this paper, we propose a CNN based Text ATTention network (TATT) to address this problem. The semantics of the text are firstly extracted by a text recognition module as text prior information. Then we design a novel transformer-based module, which leverages global attention mechanism, to exert the semantic guidance of text prior to the text reconstruction process. In addition, we propose a text structure consistency loss to refine the visual appearance by imposing structural consistency on the reconstructions of regular and deformed texts. Experiments on the benchmark TextZoom dataset show that the proposed TATT not only achieves state-of-the-art performance in terms of PSNR/SSIM metrics, but also significantly improves the recognition accuracy in the downstream text recognition task, particularly for text instances with multi-orientation and curved shapes. Code is available at https://github.com/m jq11302010044/TATT.
翻訳日:2022-03-18 15:25:02 公開日:2022-03-17
# 実世界の水中画像の復元学習のための中間送信マップ

Medium Transmission Map Matters for Learning to Restore Real-World Underwater Images ( http://arxiv.org/abs/2203.09414v1 )

ライセンス: Link先を確認
Yan Kai, Liang Lanyue, Zheng Ziqiang, Wang Guoqing, Yang Yang(参考訳) 水中の視覚知覚は、水中探査、考古学、生態系などにおいて本質的に重要である。 低照度、光反射、散乱、吸収、懸濁粒子は必然的に水中画像の品質を低下させ、水中画像から物体を認識する上で大きな課題を引き起こす。 水中視認性向上を目的とした既存の水中強調法は,画像復元性能の低下や一般化能力の低下に苦しむ。 水中画像強調の難易度を低減するため,画像強調を支援するためのガイダンスとしてメディア送信マップを提案する。 水中視覚画像と伝送マップとの相互作用を定式化し、より優れた強調結果を得る。 単純で軽量なネットワーク構成であっても、既存のモデルより30倍高速なTest-R90において22.6dBの高度な結果が得られる。 総合実験の結果,水中知覚における優越性と潜在性が示された。 Paperのコードは民営化されている。 https://github.com/G roupG-yk/MTUR-Net

Underwater visual perception is essentially important for underwater exploration, archeology, ecosystem and so on. The low illumination, light reflections, scattering, absorption and suspended particles inevitably lead to the critically degraded underwater image quality, which causes great challenges on recognizing the objects from the underwater images. The existing underwater enhancement methods that aim to promote the underwater visibility, heavily suffer from the poor image restoration performance and generalization ability. To reduce the difficulty of underwater image enhancement, we introduce the media transmission map as guidance to assist in image enhancement. We formulate the interaction between the underwater visual images and the transmission map to obtain better enhancement results. Even with simple and lightweight network configuration, the proposed method can achieve advanced results of 22.6 dB on the challenging Test-R90 with an impressive 30 times faster than the existing models. Comprehensive experimental results have demonstrated the superiority and potential on underwater perception. Paper's code is privoded on: https://github.com/G roupG-yk/MTUR-Net
翻訳日:2022-03-18 15:23:39 公開日:2022-03-17
# 給与ランキングのための双方向オブジェクト指向優先学習

Bi-directional Object-context Prioritization Learning for Saliency Ranking ( http://arxiv.org/abs/2203.09416v1 )

ライセンス: Link先を確認
Xin Tian, Ke Xu, Xin Yang, Lin Du, Baocai Yin, Rynson W.H. Lau(参考訳) 感性ランキングタスクは、人間が通常、その感性度に基づいて、シーンの異なる物体に注意を移す視覚行動を研究するために提案されている。 既存のアプローチは、オブジェクト-オブジェクトまたはオブジェクト-シーン関係の学習に焦点を当てている。 このような戦略は、心理学における対象に基づく注意の考え方に従うが、強い意味論(例えば人間)を持つ対象を好む傾向があり、非現実的な正当性ランキングをもたらす。 本研究では,人間の視覚認識システムにおいて空間的注意が物体的注意と同時動作することを観察する。 認識過程の間、人間の空間的注意機構は、地域から地域(文脈から文脈へ)へ移動し、関与し、切り離す。 これは、給与ランキングのために、オブジェクトレベルの推論に加えて、地域レベルの相互作用をモデル化することを促します。 そこで,本稿では,空間的注意と物体的注意を一体化するための新しい双方向手法を提案する。 本モデルでは,(1)サリアンオブジェクトの意味表現を推論してオブジェクトベースの注意をモデル化する選択的オブジェクト・サリアンシ(SOS)モジュール,(2)サリアンオブジェクトのオブジェクトコンテキストとコンテキストオブジェクトの相互作用を共同でモデル化することにより,オブジェクトに対するサリアンシのランクを割り当てるオブジェクト・コンテクスト・オブジェクト関係(OCOR)モジュールの2つの新しいモジュールを含む。 広範な実験によって、我々のアプローチは既存のステート・オブ・トミーメソッドよりも優れています。 私たちのコードと事前訓練されたモデルはhttps://github.com/G rassBro/OCOR.orgで公開されています。

The saliency ranking task is recently proposed to study the visual behavior that humans would typically shift their attention over different objects of a scene based on their degrees of saliency. Existing approaches focus on learning either object-object or object-scene relations. Such a strategy follows the idea of object-based attention in Psychology, but it tends to favor those objects with strong semantics (e.g., humans), resulting in unrealistic saliency ranking. We observe that spatial attention works concurrently with object-based attention in the human visual recognition system. During the recognition process, the human spatial attention mechanism would move, engage, and disengage from region to region (i.e., context to context). This inspires us to model the region-level interactions, in addition to the object-level reasoning, for saliency ranking. To this end, we propose a novel bi-directional method to unify spatial attention and object-based attention for saliency ranking. Our model includes two novel modules: (1) a selective object saliency (SOS) module that models objectbased attention via inferring the semantic representation of the salient object, and (2) an object-context-objec t relation (OCOR) module that allocates saliency ranks to objects by jointly modeling the object-context and context-object interactions of the salient objects. Extensive experiments show that our approach outperforms existing state-of-theart methods. Our code and pretrained model are available at https://github.com/G rassBro/OCOR.
翻訳日:2022-03-18 15:23:26 公開日:2022-03-17
# ZebraPose:6DoFオブジェクトポス推定のための細かな表面エンコーディング

ZebraPose: Coarse to Fine Surface Encoding for 6DoF Object Pose Estimation ( http://arxiv.org/abs/2203.09418v1 )

ライセンス: Link先を確認
Yongzhi Su, Mahdi Saleh, Torben Fetzer, Jason Rambach, Nassir Navab, Benjamin Busam, Didier Stricker, Federico Tombari(参考訳) 画像から3dへの対応を確立することは、6dofオブジェクトポーズ推定の重要な課題である。 より正確にポーズを予測するために、深層学習された密集地図はスパーステンプレートを置き換えた。 濃密な手法は咬合の存在下でのポーズ推定も改善した。 最近では、オブジェクトフラグメントをセグメンテーションとして学習することで改善が示されている。 本研究では,物体表面を密に表現できる離散記述子を提案する。 階層型バイナリグルーピングを組み込むことで、オブジェクト表面を非常に効率的にエンコードすることができる。 さらに,細粒度対応予測を可能にする粗粒度・細粒度トレーニング戦略を提案する。 最後に、予測符号をオブジェクト表面とマッチングし、PnPソルバを用いて6DoFのポーズを推定する。 LM-O と YCB-V のデータセットの結果は、アート w.r.t. ADD(-S) メトリックの状況よりも大幅に改善され、場合によっては RGB-D ベースの手法を超えている。

Establishing correspondences from image to 3D has been a key task of 6DoF object pose estimation for a long time. To predict pose more accurately, deeply learned dense maps replaced sparse templates. Dense methods also improved pose estimation in the presence of occlusion. More recently researchers have shown improvements by learning object fragments as segmentation. In this work, we present a discrete descriptor, which can represent the object surface densely. By incorporating a hierarchical binary grouping, we can encode the object surface very efficiently. Moreover, we propose a coarse to fine training strategy, which enables fine-grained correspondence prediction. Finally, by matching predicted codes with object surface and using a PnP solver, we estimate the 6DoF pose. Results on the public LM-O and YCB-V datasets show major improvement over the state of the art w.r.t. ADD(-S) metric, even surpassing RGB-D based methods in some cases.
翻訳日:2022-03-18 15:22:57 公開日:2022-03-17
# TO-Scene:3Dテーブルトップシーンを理解するための大規模データセット

TO-Scene: A Large-scale Dataset for Understanding 3D Tabletop Scenes ( http://arxiv.org/abs/2203.09440v1 )

ライセンス: Link先を確認
Mutian Xu, Pei Chen, Haolin Liu, Xiaoguang Han(参考訳) 食事や筆記などの基本的な室内活動の多くは、常に異なる錠剤(コーヒーテーブルや机など)で行われている。 3次元屋内シーン解析アプリケーションにおけるテーブルトップシーンの理解は不可欠である。 残念ながら、現在のデータセットでは3Dテーブルトップシーンがほとんど利用できないため、データ駆動アルゴリズムを直接デプロイすることで、この需要を満たすのは難しい。 この欠陥を解消するために,テーブルトップシーンに焦点を当てた大規模データセットto-sceneを紹介する。 データを取得するために,ScanNetからCADオブジェクトをテーブルに転送するクラウドソーシングUIを開発する,効率的でスケーラブルなフレームワークを設計する。 そして、出力テーブルトップシーンを実際のスキャンにシミュレートし、自動的に注釈を付ける。 さらに,小型のテーブルトップインスタンスをよりよく認識するためのテーブルトップ対応学習戦略を提案する。 また,TO-Sceneの実用的価値を検証するために,実際にスキャンしたテストセットのTO-Realも提供する。 実験の結果,TO-Sceneで訓練したアルゴリズムは現実的なテストデータで実際に機能し,提案したテーブルトップ認識学習戦略は,3次元セマンティックセグメンテーションとオブジェクト検出の両タスクにおける最先端の結果を大幅に改善することがわかった。 TO-SceneとTO-Realに加えて、Web UIも一般公開される。

Many basic indoor activities such as eating or writing are always conducted upon different tabletops (e.g., coffee tables, writing desks). It is indispensable to understanding tabletop scenes in 3D indoor scene parsing applications. Unfortunately, it is hard to meet this demand by directly deploying data-driven algorithms, since 3D tabletop scenes are rarely available in current datasets. To remedy this defect, we introduce TO-Scene, a large-scale dataset focusing on tabletop scenes, which contains 20,740 scenes with three variants. To acquire the data, we design an efficient and scalable framework, where a crowdsourcing UI is developed to transfer CAD objects onto tables from ScanNet. Then the output tabletop scenes are simulated into real scans and annotated automatically. Further, we propose a tabletop-aware learning strategy for better perceiving the small-sized tabletop instances. Notably, we also provide a real scanned test set TO-Real to verify the practical value of TO-Scene. Experiments show that the algorithms trained on TO-Scene indeed work on the realistic test data, and our proposed tabletop-aware learning strategy greatly improves the state-of-the-art results on both 3D semantic segmentation and object detection tasks. TO-Scene and TO-Real, plus Web UI, will all be publicly available.
翻訳日:2022-03-18 15:22:42 公開日:2022-03-17
# Vox2Cortex: 幾何学的ディープニューラルネットワークを用いた3次元MRIスキャンから皮質表面を高速に再現する

Vox2Cortex: Fast Explicit Reconstruction of Cortical Surfaces from 3D MRI Scans with Geometric Deep Neural Networks ( http://arxiv.org/abs/2203.09446v1 )

ライセンス: Link先を確認
Fabian Bongratz, Anne-Marie Rickmann, Sebastian P\"olsterl, Christian Wachinger(参考訳) 脳磁気共鳴画像(MRI)スキャンによる皮質表面の再構築は、皮質の厚さとsulcal morphologyの定量的解析に不可欠である。 この目的のために、伝統的なディープラーニングベースのアルゴリズムパイプラインは存在するが、それらは2つの大きな欠点がある: 複数時間(伝統的)の長いランタイム、またはメッシュ抽出やトポロジ補正(ディープラーニングベース)のような複雑な後処理である。 本研究では,これら2つの問題に対処し,大脳皮質の境界の3次元メッシュを直接生成する深層学習に基づくアルゴリズムであるVox2Cortexを提案する。 Vox2Cortexは畳み込みニューラルネットワークとグラフ畳み込みニューラルネットワークを利用して、入力MRIスキャンで表される大脳皮質の密に折り畳まれた幾何学に初期テンプレートを変形する。 我々は3つの脳MRIデータセットの広範な実験で、我々のメッシュは時間とリソース集約的な後処理を必要とせずに、現場の最先端の手法で再構築されたものと同じくらい正確であることを示した。 密に折りたたまれた皮質を正確に再構築するために、テスト時に約168,000個の頂点を含むメッシュを用いて、深部明示的な再構成方法を新しいレベルにスケールする。

The reconstruction of cortical surfaces from brain magnetic resonance imaging (MRI) scans is essential for quantitative analyses of cortical thickness and sulcal morphology. Although traditional and deep learning-based algorithmic pipelines exist for this purpose, they have two major drawbacks: lengthy runtimes of multiple hours (traditional) or intricate post-processing, such as mesh extraction and topology correction (deep learning-based). In this work, we address both of these issues and propose Vox2Cortex, a deep learning-based algorithm that directly yields topologically correct, three-dimensional meshes of the boundaries of the cortex. Vox2Cortex leverages convolutional and graph convolutional neural networks to deform an initial template to the densely folded geometry of the cortex represented by an input MRI scan. We show in extensive experiments on three brain MRI datasets that our meshes are as accurate as the ones reconstructed by state-of-the-art methods in the field, without the need for time- and resource-intensive post-processing. To accurately reconstruct the tightly folded cortex, we work with meshes containing about 168,000 vertices at test time, scaling deep explicit reconstruction methods to a new level.
翻訳日:2022-03-18 15:22:21 公開日:2022-03-17
# コントラスト的非ペア翻訳を用いた合成領域適応

Synthetic-to-Real Domain Adaptation using Contrastive Unpaired Translation ( http://arxiv.org/abs/2203.09454v1 )

ライセンス: Link先を確認
Benedikt T. Imbusch, Max Schwarz, Sven Behnke(参考訳) ロボット工学におけるディープラーニングモデルの有用性は、トレーニングデータの可用性に大きく依存している。 トレーニングデータのマニュアルアノテーションはしばしば無効である。 合成データは有効な代替手段であるが、ドメインのギャップに苦しむ。 手動のアノテーションを使わずにトレーニングデータを得るためのマルチステップ手法を提案する: 3次元オブジェクトメッシュから、現代的な合成パイプラインを用いて画像を生成する。 本稿では,最先端の画像から画像への変換手法を用いて,合成画像を実領域に適応させ,学習した領域ギャップを最小化する。 翻訳ネットワークは、無注の画像から訓練される。 生成された画像と洗練された画像は、特定のタスクのためのディープラーニングモデルのトレーニングに使用することができる。 また,学習時間を短縮し,グローバル一貫性を向上させるパッチベースのトレーニングなど,さらなるパフォーマンス向上を実現する翻訳手法の拡張を提案し,評価する。 本手法を評価し,その効果を2つのロボットデータセットで実証する。 最後に、学習した洗練操作について見識を与えます。

The usefulness of deep learning models in robotics is largely dependent on the availability of training data. Manual annotation of training data is often infeasible. Synthetic data is a viable alternative, but suffers from domain gap. We propose a multi-step method to obtain training data without manual annotation effort: From 3D object meshes, we generate images using a modern synthesis pipeline. We utilize a state-of-the-art image-to-image translation method to adapt the synthetic images to the real domain, minimizing the domain gap in a learned manner. The translation network is trained from unpaired images, i.e. just requires an un-annotated collection of real images. The generated and refined images can then be used to train deep learning models for a particular task. We also propose and evaluate extensions to the translation method that further increase performance, such as patch-based training, which shortens training time and increases global consistency. We evaluate our method and demonstrate its effectiveness on two robotic datasets. We finally give insight into the learned refinement operations.
翻訳日:2022-03-18 15:21:59 公開日:2022-03-17
# 部屋の外を眺める:1枚の画像から連続した3D映像を合成する

Look Outside the Room: Synthesizing A Consistent Long-Term 3D Scene Video from A Single Image ( http://arxiv.org/abs/2203.09457v1 )

ライセンス: Link先を確認
Xuanchi Ren, Xiaolong Wang(参考訳) 単一の画像からの新しいビュー合成は、最近多くの注目を集めており、主に3D深層学習とレンダリング技術によって進歩している。 しかし、ほとんどの作業は、比較的小さなカメラモーションで新しいビューを合成することで制限されている。 本稿では,単一シーン画像と大規模カメラモーションの軌跡が与えられた一貫した長期映像を合成するための新しい手法を提案する。 提案手法では,複数フレームの逐次モデリングを行うために自己回帰トランスを応用し,複数のフレームと対応するカメラの関係を推定する。 生成したフレーム間の一貫性の確保と学習を容易にするため,入力カメラに基づく局所性制約を導入し,空間と時間にまたがる多数のパッチ間の自己注意を誘導する。 本手法は,室内3Dシーンにおける長期的未来を合成する場合に,最先端のビュー合成手法よりも大きなマージンで優れる。 プロジェクトページ: https://xrenaa.githu b.io/look-outside-ro om/

Novel view synthesis from a single image has recently attracted a lot of attention, and it has been primarily advanced by 3D deep learning and rendering techniques. However, most work is still limited by synthesizing new views within relatively small camera motions. In this paper, we propose a novel approach to synthesize a consistent long-term video given a single scene image and a trajectory of large camera motions. Our approach utilizes an autoregressive Transformer to perform sequential modeling of multiple frames, which reasons the relations between multiple frames and the corresponding cameras to predict the next frame. To facilitate learning and ensure consistency among generated frames, we introduce a locality constraint based on the input cameras to guide self-attention among a large number of patches across space and time. Our method outperforms state-of-the-art view synthesis approaches by a large margin, especially when synthesizing long-term future in indoor 3D scenes. Project page at https://xrenaa.githu b.io/look-outside-ro om/.
翻訳日:2022-03-18 15:21:46 公開日:2022-03-17
# FERV39k:ビデオにおける表情認識のための大規模マルチシーンデータセット

FERV39k: A Large-Scale Multi-Scene Dataset for Facial Expression Recognition in Videos ( http://arxiv.org/abs/2203.09463v1 )

ライセンス: Link先を確認
Yan Wang, Yixuan Sun, Yiwen Huang, Zhongying Liu, Shuyong Gao, Wei Zhang, Weifeng Ge and Wenqiang Zhang(参考訳) 顔表情認識(FER)の現在のベンチマークは、主に静的画像に焦点を当てているが、ビデオにはFERのデータセットが限られている。 既存のメソッドのパフォーマンスが実際のアプリケーション指向のシーンで十分であるかどうかを評価することは、まだ曖昧である。 例えば、トークショーで高輝度の"happy"表現は、公式イベントにおいて低強度の同じ表現よりも識別性が高い。 このギャップを埋めるために、ferV39kと呼ばれる大規模なマルチシーンデータセットを構築しました。 本研究では,(1)マルチシーン階層と表現クラス,(2)候補ビデオクリップの生成,(3)信頼された手動ラベリングプロセスの3つの側面から,このような新しいデータセットを構築する重要な要素を分析する。 これらのガイドラインに基づき,22シーンに分割した4つのシナリオを選択し,適切に設計されたワークフローに基づいて4kビデオから抽出した86kサンプルを自動アノテーションし,最終的に7つの古典的な表現でラベル付けされた38,935本のビデオクリップを構築する。 4種類のベースラインフレームワークの実験ベンチマークも提供され、そのパフォーマンスをさまざまな場面で分析し、今後の研究課題も提示された。 さらに, アブレーション研究によりDFERの主要成分を系統的に検討した。 ベースラインフレームワークと私たちのプロジェクトは、urlで利用可能です。

Current benchmarks for facial expression recognition (FER) mainly focus on static images, while there are limited datasets for FER in videos. It is still ambiguous to evaluate whether performances of existing methods remain satisfactory in real-world application-oriented scenes. For example, the "Happy" expression with high intensity in Talk-Show is more discriminating than the same expression with low intensity in Official-Event. To fill this gap, we build a large-scale multi-scene dataset, coined as FERV39k. We analyze the important ingredients of constructing such a novel dataset in three aspects: (1) multi-scene hierarchy and expression class, (2) generation of candidate video clips, (3) trusted manual labelling process. Based on these guidelines, we select 4 scenarios subdivided into 22 scenes, annotate 86k samples automatically obtained from 4k videos based on the well-designed workflow, and finally build 38,935 video clips labeled with 7 classic expressions. Experiment benchmarks on four kinds of baseline frameworks were also provided and further analysis on their performance across different scenes and some challenges for future research were given. Besides, we systematically investigate key components of DFER by ablation studies. The baseline framework and our project are available on url.
翻訳日:2022-03-18 15:21:30 公開日:2022-03-17
# ポイントクラウドDNNのグローバル説明の可視化

Visualizing Global Explanations of Point Cloud DNNs ( http://arxiv.org/abs/2203.09505v1 )

ライセンス: Link先を確認
Hanxiao Tan(参考訳) 自動運転とロボット工学の分野では、ポイントクラウドは主要な3Dセンサーの生データとして、優れたリアルタイムパフォーマンスを示している。 したがって、ポイント・クラウド・ニューラルネットは近年、一般的な研究の方向性となっている。 しかし、これまでのところ、ポイントクラウドに対するディープニューラルネットワークの説明可能性についてはほとんど議論されていない。 本稿では,ローカルサロゲートモデルに基づくポイントクラウド適用可能な説明可能性アプローチを提案し,どのコンポーネントが分類に寄与しているかを示す。 さらに,説明可能性の説得力を高めるような生成説明に対する定量的忠実性検証を提案し,既存点のクラウド適用可能な説明可能性法の比較を行った。 我々の新しい説明可能性アプローチは、ポイントクラウド分類タスクに対して、かなり正確で、セマンティックに一貫性があり、広く適用可能な説明を提供する。 私たちのコードはhttps://github.com/E xplain3D/LIME-3Dで利用可能です。

In the field of autonomous driving and robotics, point clouds are showing their excellent real-time performance as raw data from most of the mainstream 3D sensors. Therefore, point cloud neural networks have become a popular research direction in recent years. So far, however, there has been little discussion about the explainability of deep neural networks for point clouds. In this paper, we propose a point cloud-applicable explainability approach based on a local surrogate model-based method to show which components contribute to the classification. Moreover, we propose quantitative fidelity validations for generated explanations that enhance the persuasive power of explainability and compare the plausibility of different existing point cloud-applicable explainability methods. Our new explainability approach provides a fairly accurate, more semantically coherent and widely applicable explanation for point cloud classification tasks. Our code is available at https://github.com/E xplain3D/LIME-3D
翻訳日:2022-03-18 15:20:28 公開日:2022-03-17
# 天相RF:天空放射場

TensoRF: Tensorial Radiance Fields ( http://arxiv.org/abs/2203.09517v1 )

ライセンス: Link先を確認
Anpei Chen and Zexiang Xu and Andreas Geiger and Jingyi Yu and Hao Su(参考訳) 放射場をモデル化し再構成する新しいアプローチであるtensorfを提案する。 純粋にmlpを使用するnerfとは異なり、シーンの放射場を4dテンソルとしてモデル化し、ボクセル単位のマルチチャネル特徴を持つ3dボクセルグリッドを表現する。 我々の中心となる考え方は、4Dシーンテンソルを複数のコンパクト低ランクテンソルコンポーネントに分解することである。 従来のcp分解 -- テンソルをコンパクトベクタを持つランク1のコンポーネントに分解する -- をフレームワークに適用することで,バニラnerfよりも改善できることを実証した。 さらに,テンソルの2つのモードに対する低ランク制約を緩和し,テンソルをコンパクトなベクトル因子と行列因子に分解する新しいベクター行列分解法を導入する。 優れたレンダリング品質の他に、CPとVMの分解を伴うモデルでは、従来のVoxel機能を直接最適化する並行処理と比較して、メモリフットプリントが大幅に低下します。 実験により, CP分解したTensoRFは高速な再構成 (30分) を実現し, レンダリング精度が良く, モデルサイズもNeRFに比べて小さい (4MB) 。 さらに、VM分解を伴うTensoRFは、レンダリング品質をさらに向上し、従来の最先端手法よりも優れ、再構成時間(10分)を短縮し、コンパクトモデルサイズ(75MB)を維持する。

We present TensoRF, a novel approach to model and reconstruct radiance fields. Unlike NeRF that purely uses MLPs, we model the radiance field of a scene as a 4D tensor, which represents a 3D voxel grid with per-voxel multi-channel features. Our central idea is to factorize the 4D scene tensor into multiple compact low-rank tensor components. We demonstrate that applying traditional CP decomposition -- that factorizes tensors into rank-one components with compact vectors -- in our framework leads to improvements over vanilla NeRF. To further boost performance, we introduce a novel vector-matrix (VM) decomposition that relaxes the low-rank constraints for two modes of a tensor and factorizes tensors into compact vector and matrix factors. Beyond superior rendering quality, our models with CP and VM decompositions lead to a significantly lower memory footprint in comparison to previous and concurrent works that directly optimize per-voxel features. Experimentally, we demonstrate that TensoRF with CP decomposition achieves fast reconstruction (<30 min) with better rendering quality and even a smaller model size (<4 MB) compared to NeRF. Moreover, TensoRF with VM decomposition further boosts rendering quality and outperforms previous state-of-the-art methods, while reducing the reconstruction time (<10 min) and retaining a compact model size (<75 MB).
翻訳日:2022-03-18 15:20:18 公開日:2022-03-17
# 変換, 圧縮, 正しい:通信効率のよいDNNトレーニングへの3つのステップ

Convert, compress, correct: Three steps toward communication-effici ent DNN training ( http://arxiv.org/abs/2203.09044v1 )

ライセンス: Link先を確認
Zhong-Jing Chen, Eduin E. Hernandez, Yu-Chih Huang, Stefano Rini(参考訳) 本稿では,通信効率の分散Deep Neural Network (DNN) トレーニングのための新しいアルゴリズムである$\mathsf{CO}_3$を紹介する。 $\mathsf{CO}_3$は、ネットワーク勾配の3つの処理ステップを含む、共同トレーニング/通信プロトコルである。 (i)浮動小数点変換による量子化 (ii)無損失圧縮、及び (iii)誤り訂正。 これらの3つのコンポーネントは、レート制約付きリンクよりも分散DNNトレーニングの実装において重要である。 DNN勾配処理におけるこれらの3つのステップの相互作用は、厳密で高性能なスキームを生み出すために注意深くバランスをとる。 CIFAR-10の数値評価により提案手法の性能を検討した。

In this paper, we introduce a novel algorithm, $\mathsf{CO}_3$, for communication-effici ency distributed Deep Neural Network (DNN) training. $\mathsf{CO}_3$ is a joint training/communicati on protocol, which encompasses three processing steps for the network gradients: (i) quantization through floating-point conversion, (ii) lossless compression, and (iii) error correction. These three components are crucial in the implementation of distributed DNN training over rate-constrained links. The interplay of these three steps in processing the DNN gradients is carefully balanced to yield a robust and high-performance scheme. The performance of the proposed scheme is investigated through numerical evaluations over CIFAR-10.
翻訳日:2022-03-18 15:19:02 公開日:2022-03-17
# 個人化と洗練によるグラフ表現学習

Graph Representation Learning with Individualization and Refinement ( http://arxiv.org/abs/2203.09141v1 )

ライセンス: Link先を確認
Mohammed Haroon Dupty, Wee Sun Lee(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データ上での表現学習の顕著なモデルとして登場した。 GNNは、グラフ同型に対する1次元Weisfeiler Lehman (1-WL)テストに類似したメッセージパッシングのアプローチに従い、1-WLの区別力によって制限される。 ノードのkタプルで動作するより表現力の高い高階GNNは、高階テンソルを処理するために計算資源の増大を必要とする。 この研究では、wlアプローチの代わりに、我々は、最も実用的な同型ソルバに続く技法である、個別化および精細化(ir)の古典的なアプローチに従う。 個別化とは、グラフ内のノードを人工的に区別することであり、精製はメッセージパッシングを通じて、この情報を他のノードに伝達することである。 私たちは、ノードを適応的に選択して個別化し、グラフを改良した後で集約することで、複雑さに対処することを学びました。 この手法により,計算複雑性を維持しつつ,よりリッチなノード埋め込みを学習できる。 理論的には,術式は1-WL試験よりも表現力が高い。 実験により,本手法は,複数のベンチマーク合成および実データに対する高次ベースラインの競合だけでなく,顕著な1-WL GNNモデルよりも優れていることが示された。 さらに,グラフ構造学習のパラダイムを個別化・洗練することで探求するための新たな扉を開く。

Graph Neural Networks (GNNs) have emerged as prominent models for representation learning on graph structured data. GNNs follow an approach of message passing analogous to 1-dimensional Weisfeiler Lehman (1-WL) test for graph isomorphism and consequently are limited by the distinguishing power of 1-WL. More expressive higher-order GNNs which operate on k-tuples of nodes need increased computational resources in order to process higher-order tensors. Instead of the WL approach, in this work, we follow the classical approach of Individualization and Refinement (IR), a technique followed by most practical isomorphism solvers. Individualization refers to artificially distinguishing a node in the graph and refinement is the propagation of this information to other nodes through message passing. We learn to adaptively select nodes to individualize and to aggregate the resulting graphs after refinement to help handle the complexity. Our technique lets us learn richer node embeddings while keeping the computational complexity manageable. Theoretically, we show that our procedure is more expressive than the 1-WL test. Experiments show that our method outperforms prominent 1-WL GNN models as well as competitive higher-order baselines on several benchmark synthetic and real datasets. Furthermore, our method opens new doors for exploring the paradigm of learning on graph structures with individualization and refinement.
翻訳日:2022-03-18 15:17:33 公開日:2022-03-17
# 複数の季節性を有する時系列予測のためのリカレントニューラルネットワーク--比較研究

Recurrent Neural Networks for Forecasting Time Series with Multiple Seasonality: A Comparative Study ( http://arxiv.org/abs/2203.09170v1 )

ライセンス: Link先を確認
Grzegorz Dudek, Slawek Smyl, Pawe{\l} Pe{\l}ka(参考訳) 本稿では,連続ニューラルネットワーク(RNN)と異なる種類のゲートセルを比較し,時系列を複数の季節性で予測する。 比較した細胞は、古典的長期記憶(LSTM)、ゲートリカレントユニット(GRU)、拡張修飾LSTM、そして最近提案した2つの新しい細胞である。 異なるスケールの時間的依存関係をモデル化するために、我々のRNNアーキテクチャは階層的拡張を積み重ねた複数の拡張されたリカレント層を持つ。 提案したRNNは点予測と予測区間(PI)の両方を生成する。 欧州35カ国の短期電気負荷予測に関する実証研究により、新しいゲート細胞は、拡張と注意が最善であることを確認した。

This paper compares recurrent neural networks (RNNs) with different types of gated cells for forecasting time series with multiple seasonality. The cells we compare include classical long short term memory (LSTM), gated recurrent unit (GRU), modified LSTM with dilation, and two new cells we proposed recently, which are equipped with dilation and attention mechanisms. To model the temporal dependencies of different scales, our RNN architecture has multiple dilated recurrent layers stacked with hierarchical dilations. The proposed RNN produces both point forecasts and predictive intervals (PIs) for them. An empirical study concerning short-term electrical load forecasting for 35 European countries confirmed that the new gated cells with dilation and attention performed best.
翻訳日:2022-03-18 15:17:12 公開日:2022-03-17
# グラフを用いたマイナショット学習:調査

Few-Shot Learning on Graphs: A Survey ( http://arxiv.org/abs/2203.09308v1 )

ライセンス: Link先を確認
Chuxu Zhang, Kaize Ding, Jundong Li, Xiangliang Zhang, Yanfang Ye, Nitesh V. Chawla, Huan Liu(参考訳) グラフ表現学習は多くの実世界のアプリケーションで顕著な性能を持つため、大きな注目を集めている。 しかし、特定のタスクに対する一般的な(半教師付きグラフ表現学習モデルは、データラベリングが常に時間とリソース消費であるため、ラベル空間の問題に悩まされることが多い。 これを踏まえて,グラフ表現学習の長所と短所学習の長所を組み合わせた,グラフ上の少数ショット学習(fslg)が,限定的な注釈付きデータ課題に直面した性能低下に取り組むために提案されている。 近年,fslgの研究が数多く行われている。 本稿では,これらの研究を一連の手法と応用の形で包括的に調査する。 具体的には、まずFSLGの課題と基盤を紹介し、次に、ノード、エッジ、グラフの3つの異なる粒度レベルでの3つの主要なグラフマイニングタスクの観点から、FSLGの既存の作業の分類と要約を行う。 最後に,FSLGの今後の研究方向性について考察する。 この調査の著者はここ数年、FSLGに関するAI文献に大きく貢献してきた。

Graph representation learning has attracted tremendous attention due to its remarkable performance in many real-world applications. However, prevailing (semi-)supervised graph representation learning models for specific tasks often suffer from label sparsity issue as data labeling is always time and resource consuming. In light of this, few-shot learning on graphs (FSLG), which combines the strengths of graph representation learning and few-shot learning together, has been proposed to tackle the performance degradation in face of limited annotated data challenge. There have been many studies working on FSLG recently. In this paper, we comprehensively survey these work in the form of a series of methods and applications. Specifically, we first introduce FSLG challenges and bases, then categorize and summarize existing work of FSLG in terms of three major graph mining tasks at different granularity levels, i.e., node, edge, and graph. Finally, we share our thoughts on some future research directions of FSLG. The authors of this survey have contributed significantly to the AI literature on FSLG over the last few years.
翻訳日:2022-03-18 15:17:00 公開日:2022-03-17
# CodeReviewer: コードレビューアクティビティを自動化するための事前トレーニング

CodeReviewer: Pre-Training for Automating Code Review Activities ( http://arxiv.org/abs/2203.09095v1 )

ライセンス: Link先を確認
Zhiyu Li, Shuai Lu, Daya Guo, Nan Duan, Shailesh Jannu, Grant Jenks, Deep Majumder, Jared Green, Alexey Svyatkovskiy, Shengyu Fu, Neel Sundaresan(参考訳) コードレビューは、コードの品質を保証することを目的としているため、ソフトウェア開発ライフサイクルにとって不可欠な部分です。 現代のコードレビュー活動は、開発者がロジック、機能、レイテンシ、スタイルなどを評価するためにプログラムを見て、理解し、実行することを必要とします。 その結果、開発者は仲間のコードをレビューするのに多くの時間を費やす必要があることがわかった。 したがって、コードレビュープロセスを自動化することは非常に要求される。 本研究では,コードレビューシナリオにおけるタスクの事前学習手法の活用に焦点をあてる。 私たちは、最も人気のある9つのプログラミング言語のオープンソースプロジェクトから、実際のコード変更とコードレビューの大規模なデータセットを収集します。 コード差分とレビューをよりよく理解するために、コードレビューセナリオに特化した4つの事前トレーニングタスクを利用する事前トレーニングモデルであるCodeReviewerを提案する。 本モデルを評価するために,コード変更品質評価,レビューコメント生成,コード修正など,コードレビュー活動に関連する3つの重要なタスクに着目した。 さらに,これら3つのタスクについて収集したデータに基づいて,高品質なベンチマークデータセットを構築し,総合的な実験を行う。 実験結果から,本モデルが従来の先行訓練手法よりも優れていることが示された。 さらに分析した結果,提案する事前学習タスクと多言語事前学習データセットは,コード変更やレビューの理解に有利であることがわかった。

Code review is an essential part to software development lifecycle since it aims at guaranteeing the quality of codes. Modern code review activities necessitate developers viewing, understanding and even running the programs to assess logic, functionality, latency, style and other factors. It turns out that developers have to spend far too much time reviewing the code of their peers. Accordingly, it is in significant demand to automate the code review process. In this research, we focus on utilizing pre-training techniques for the tasks in the code review scenario. We collect a large-scale dataset of real world code changes and code reviews from open-source projects in nine of the most popular programming languages. To better understand code diffs and reviews, we propose CodeReviewer, a pre-trained model that utilizes four pre-training tasks tailored specifically for the code review senario. To evaluate our model, we focus on three key tasks related to code review activities, including code change quality estimation, review comment generation and code refinement. Furthermore, we establish a high-quality benchmark dataset based on our collected data for these three tasks and conduct comprehensive experiments on it. The experimental results demonstrate that our model outperforms the previous state-of-the-art pre-training approaches in all tasks. Further analysis show that our proposed pre-training tasks and the multilingual pre-training dataset benefit the model on the understanding of code changes and reviews.
翻訳日:2022-03-18 15:16:44 公開日:2022-03-17
# (参考訳) toxigen: 敵意と暗黙のヘイトスピーチ検出のための大規模マシン生成データセット [全文訳有]

ToxiGen: A Large-Scale Machine-Generated Dataset for Adversarial and Implicit Hate Speech Detection ( http://arxiv.org/abs/2203.09509v1 )

ライセンス: CC BY 4.0
Thomas Hartvigsen, Saadia Gabriel, Hamid Palangi, Maarten Sap, Dipankar Ray, Ece Kamar(参考訳) 有害な言語検出システムは、少数派のグループが言及するテキストが有害であると誤って警告することが多い。 このようなスプリアス相関への過度な依存はまた、システムは暗黙の有害な言語を検出するのに苦労する。 これらの問題を緩和するために、13の少数グループに関する274kの有毒で良質なステートメントからなる、新しい大規模でマシン生成データセットであるToxiGenを作成します。 そこで,本研究では,実演に基づくプロンプトフレームワークと,ループ内デコード手法を開発し,膨大な事前学習言語モデルを用いて低毒性・良性テキストを生成する。 このようにマシン生成を制御することで、ToxiGenは人間のテキストの以前のリソースよりも、暗黙的に有毒なテキストを大規模にカバーし、さらに人口集団をカバーできる。 toxigenの難解なサブセットについて人間による評価を行い,機械生成テキストと人文言語との区別が困難であることを示す。 また、有毒な例の94.5%はヘイトスピーチと分類されている。 3つの公開データセットを用いて,我々のデータに対する毒性分類器の微調整により,人文データに対する性能が大幅に向上することを示す。 また, 微調整により評価サブセットの分類精度が大幅に向上するため, トキシゲンを機械生成毒性との戦いに使用できることを示した。

Toxic language detection systems often falsely flag text that contains minority group mentions as toxic, as those groups are often the targets of online hate. Such over-reliance on spurious correlations also causes systems to struggle with detecting implicitly toxic language. To help mitigate these issues, we create ToxiGen, a new large-scale and machine-generated dataset of 274k toxic and benign statements about 13 minority groups. We develop a demonstration-based prompting framework and an adversarial classifier-in-the-lo op decoding method to generate subtly toxic and benign text with a massive pretrained language model. Controlling machine generation in this way allows ToxiGen to cover implicitly toxic text at a larger scale, and about more demographic groups, than previous resources of human-written text. We conduct a human evaluation on a challenging subset of ToxiGen and find that annotators struggle to distinguish machine-generated text from human-written language. We also find that 94.5% of toxic examples are labeled as hate speech by human annotators. Using three publicly-available datasets, we show that finetuning a toxicity classifier on our data improves its performance on human-written data substantially. We also demonstrate that ToxiGen can be used to fight machine-generated toxicity as finetuning improves the classifier significantly on our evaluation subset.
翻訳日:2022-03-18 15:13:59 公開日:2022-03-17
# planet: 長文生成のための自己回帰トランスフォーマーにおける動的コンテンツ計画

PLANET: Dynamic Content Planning in Autoregressive Transformers for Long-form Text Generation ( http://arxiv.org/abs/2203.09100v1 )

ライセンス: Link先を確認
Zhe Hu, Hou Pong Chan, Jiachen Liu, Xinyan Xiao, Hua Wu, Lifu Huang(参考訳) フルーエントテキストを生成するための事前学習された言語モデルの進歩にもかかわらず、既存の手法は、適切なコンテンツ制御とコヒーレントなハイレベルな論理フローを形成する計画を必要とする長文生成タスクにおいて、いまだに一貫性に欠ける問題に苦しんでいる。 本研究では,自己回帰型自己認識機構を利用してコンテンツ計画と表面実現を動的に行う新しい生成フレームワークPLANETを提案する。 出力文の生成をガイドするために,我々のフレームワークは,翻訳者デコーダを潜時表現で強化し,単語のバインドに基づく文レベルのセマンティックプランを維持する。 さらに,出力のコヒーレンスをさらに向上させるために,新しいコヒーレンスに基づくコントラスト学習目標を提案する。 反論生成と意見記事生成を含む2つの難解な長文生成タスクについて,広範な実験を行った。 自動評価と人的評価の両方で,本手法は強いベースラインを著しく上回り,よりリッチなテキストを生成する。

Despite recent progress of pre-trained language models on generating fluent text, existing methods still suffer from incoherence problems in long-form text generation tasks that require proper content control and planning to form a coherent high-level logical flow. In this work, we propose PLANET, a novel generation framework leveraging autoregressive self-attention mechanism to conduct content planning and surface realization dynamically. To guide the generation of output sentences, our framework enriches the Transformer decoder with latent representations to maintain sentence-level semantic plans grounded by bag-of-words. Moreover, we introduce a new coherence-based contrastive learning objective to further improve the coherence of output. Extensive experiments are conducted on two challenging long-form text generation tasks including counterargument generation and opinion article generation. Both automatic and human evaluations show that our method significantly outperforms strong baselines and generates more coherent texts with richer contents.
翻訳日:2022-03-18 14:49:38 公開日:2022-03-17
# relationprompt: ゼロショット関係三重項抽出のための合成データ生成プロンプトの活用

RelationPrompt: Leveraging Prompts to Generate Synthetic Data for Zero-Shot Relation Triplet Extraction ( http://arxiv.org/abs/2203.09101v1 )

ライセンス: Link先を確認
Yew Ken Chia, Lidong Bing, Soujanya Poria, Luo Si(参考訳) 知識の構築と表現における関係抽出の重要性にもかかわらず、未知の関係型への一般化に焦点をあてる研究は少ない。 ゼロショット関係トリプレット抽出(ZeroRTE)のタスク設定を導入し,低リソース関係抽出手法のさらなる研究を奨励する。 入力文が与えられた後、抽出された各三重項は、トレーニング段階で関係ラベルが見えないヘッドエンティティ、リレーションラベル、テールエンティティから構成される。 ZeroRTE を解決するために,言語モデルに構造化テキストの生成を促すことで,関係例を合成する。 具体的には、言語モデルプロンプトと構造化テキストアプローチを統合し、関係ラベルプロンプト(relationprompt)の条件付け時に合成関係サンプルを生成する構造化プロンプトテンプレートを設計する。 文中の複数の三重項を抽出する制限を克服するために,新しい三重項探索復号法を設計する。 FewRelとWiki-ZSLデータセットの実験では、ZeroRTEタスクに対するRelationPromptの有効性とゼロショット関係分類が示されている。 コードとデータはgithub.com/declare-l ab/relationpromptで入手できます。

Despite the importance of relation extraction in building and representing knowledge, less research is focused on generalizing to unseen relations types. We introduce the task setting of Zero-Shot Relation Triplet Extraction (ZeroRTE) to encourage further research in low-resource relation extraction methods. Given an input sentence, each extracted triplet consists of the head entity, relation label, and tail entity where the relation label is not seen at the training stage. To solve ZeroRTE, we propose to synthesize relation examples by prompting language models to generate structured texts. Concretely, we unify language model prompts and structured text approaches to design a structured prompt template for generating synthetic relation samples when conditioning on relation label prompts (RelationPrompt). To overcome the limitation for extracting multiple relation triplets in a sentence, we design a novel Triplet Search Decoding method. Experiments on FewRel and Wiki-ZSL datasets show the efficacy of RelationPrompt for the ZeroRTE task and zero-shot relation classification. Our code and data are available at github.com/declare-l ab/RelationPrompt.
翻訳日:2022-03-18 14:49:15 公開日:2022-03-17
# 文法的誤り訂正のためのタイプ駆動型多軸補正

Type-Driven Multi-Turn Corrections for Grammatical Error Correction ( http://arxiv.org/abs/2203.09136v1 )

ライセンス: Link先を確認
Shaopeng Lai, Qingyu Zhou, Jiali Zeng, Zhongli Li, Chao Li, Yunbo Cao, Jinsong Su(参考訳) 文法的誤り訂正(英: grammatical error correction、gec)は、文法的誤りを自動的に検出し、訂正することを目的とする。 この側面では、支配的なモデルは推論中に複数の修正を繰り返しながら一点学習によって訓練される。 これまでの研究では、主に2つの欠点に苦しむ露出バイアスに対処するためのデータ拡張アプローチに焦点を当てていた。 まず、モデルをトレーニングするために追加で構築されたトレーニングインスタンスとオリジナルのインスタンスを組み合わせるだけで、段階的な修正の手順を明確に認識するのに役立ちません。 第2に、異なるタイプの補正間の相互依存を無視する。 本稿では,GECのためのタイプ駆動型マルチTurn Correctionsアプローチを提案する。 このアプローチを用いることで、各トレーニングインスタンスから、特定のタイプのエラーの修正を含む複数のトレーニングインスタンスを新たに構築する。 そして、これらの追加構築されたトレーニングインスタンスと元のインスタンスを使ってモデルを順番にトレーニングします。 実験結果と深部分析により,本手法がモデルトレーニングに有益であることが示唆された。 特に,我々の拡張モデルは,英語GECベンチマークで最先端の単一モデル性能を実現する。 私たちはコードをgithubでリリースします。

Grammatical Error Correction (GEC) aims to automatically detect and correct grammatical errors. In this aspect, dominant models are trained by one-iteration learning while performing multiple iterations of corrections during inference. Previous studies mainly focus on the data augmentation approach to combat the exposure bias, which suffers from two drawbacks. First, they simply mix additionally-constru cted training instances and original ones to train models, which fails to help models be explicitly aware of the procedure of gradual corrections. Second, they ignore the interdependence between different types of corrections. In this paper, we propose a Type-Driven Multi-Turn Corrections approach for GEC. Using this approach, from each training instance, we additionally construct multiple training instances, each of which involves the correction of a specific type of errors. Then, we use these additionally-constru cted training instances and the original one to train the model in turn. Experimental results and in-depth analysis show that our approach significantly benefits the model training. Particularly, our enhanced model achieves state-of-the-art single-model performance on English GEC benchmarks. We release our code at Github.
翻訳日:2022-03-18 14:48:52 公開日:2022-03-17
# マルチモーダル機械翻訳における視覚特徴について

On Vision Features in Multimodal Machine Translation ( http://arxiv.org/abs/2203.09173v1 )

ライセンス: Link先を確認
Bei Li, Chuanhao Lv, Zefan Zhou, Tao Zhou, Tong Xiao, Anxiang Ma and JingBo Zhu(参考訳) マルチモーダル機械翻訳(MMT)に関するこれまでの研究は、視覚機能を翻訳に組み込む方法に焦点を当ててきたが、視覚モデルの品質にはほとんど注目されていない。 本研究では,MMTにおける視覚モデルの影響について検討する。 トランスフォーマーがコンピュータビジョンで普及していることを踏まえ、様々な強力なモデル(視覚トランスフォーマーなど)と拡張された機能(物体検出や画像キャプションなど)を実験している。 MMTにおける画像のパッチレベルの寄与を研究するために,選択的注意モデルを構築した。 詳細な探索タスクでは、より強力な視覚モデルが視覚的モダリティから翻訳を学ぶのに役立つことが分かる。 また,MMTモデル,特に現在のベンチマークが小規模でバイアスのある場合,慎重に検討する必要があることも示唆した。 我々のコードは \url{https://github.com/l ibeineu/fairseq_mmt} にある。

Previous work on multimodal machine translation (MMT) has focused on the way of incorporating vision features into translation but little attention is on the quality of vision models. In this work, we investigate the impact of vision models on MMT. Given the fact that Transformer is becoming popular in computer vision, we experiment with various strong models (such as Vision Transformer) and enhanced features (such as object-detection and image captioning). We develop a selective attention model to study the patch-level contribution of an image in MMT. On detailed probing tasks, we find that stronger vision models are helpful for learning translation from the visual modality. Our results also suggest the need of carefully examining MMT models, especially when current benchmarks are small-scale and biased. Our code could be found at \url{https://github.com/l ibeineu/fairseq_mmt}.
翻訳日:2022-03-18 14:48:38 公開日:2022-03-17
# ODE変換器:正規微分方程式に基づくシーケンス生成モデル

ODE Transformer: An Ordinary Differential Equation-Inspired Model for Sequence Generation ( http://arxiv.org/abs/2203.09176v1 )

ライセンス: Link先を確認
Bei Li, Quan Du, Tao Zhou, Yi Jing, Shuhan Zhou, Xin Zeng, Tong Xiao, JingBo Zhu, Xuebo Liu, Min Zhang(参考訳) 残留ネットワークは通常の微分方程式 (ode) に対する解のオイラー離散化である。 本稿では,変圧器法と数値ode法との関係について検討する。 まず, Transformer の残層ブロックを ODE の高次解として記述できることを示す。 これに触発されて,ode を動機付ける runge-kutta 法に類似した,新しいアーキテクチャである {\it ode transformer} を設計した。 Transformerの自然な拡張として、ODE Transformerの実装は簡単で、使用も効率的です。 大規模機械翻訳,抽象要約,文法誤り訂正タスクの実験結果は,odeトランスフォーマの高汎用性を示している。 強力なベースライン(例えば WMT'14 と WMT'14 で 30.77 と 44.11 BLEU のスコア)よりも若干の推論効率でモデル性能を大幅に向上させることができる。

Residual networks are an Euler discretization of solutions to Ordinary Differential Equations (ODE). This paper explores a deeper relationship between Transformer and numerical ODE methods. We first show that a residual block of layers in Transformer can be described as a higher-order solution to ODE. Inspired by this, we design a new architecture, {\it ODE Transformer}, which is analogous to the Runge-Kutta method that is well motivated in ODE. As a natural extension to Transformer, ODE Transformer is easy to implement and efficient to use. Experimental results on the large-scale machine translation, abstractive summarization, and grammar error correction tasks demonstrate the high genericity of ODE Transformer. It can gain large improvements in model performance over strong baselines (e.g., 30.77 and 44.11 BLEU scores on the WMT'14 English-German and English-French benchmarks) at a slight cost in inference efficiency.
翻訳日:2022-03-18 14:48:23 公開日:2022-03-17
# エントロピーに基づく注意規則化はリストから意図しないバイアス除去を解放する

Entropy-based Attention Regularization Frees Unintended Bias Mitigation from Lists ( http://arxiv.org/abs/2203.09192v1 )

ライセンス: Link先を確認
Giuseppe Attanasio, Debora Nozza, Dirk Hovy, Elena Baralis(参考訳) 自然言語処理(NLP)モデルは、トレーニングデータの特定の用語に過度に適合し、パフォーマンス、公平性、一般化性を低下させる。 例えば、ニューラルヘイトスピーチ検出モデルはゲイや女性のようなアイデンティティ用語に強く影響され、偽陽性、重度の意図しない偏見、パフォーマンス低下をもたらす。 ほとんどの緩和テクニックは、トレーニング中にターゲットドメインのアイデンティティ用語やサンプルのリストを使用する。 しかし、このアプローチはa-prioriの知識を必要とし、重要な用語が無視された場合、さらなるバイアスをもたらす。 代わりに、知識のないエントロピーに基づく注意規則化(EAR)を提案し、トレーニング固有の用語への過度な適合を防ぐ。 追加の目的関数は、低自己着脱エントロピーでトークンをペナライズする。 我々は EAR を用いて BERT を微調整する: 結果として得られたモデルは、英語とイタリア語の3つのベンチマークコーパスにおけるヘイトスピーチ分類とバイアスメトリクスの最先端のパフォーマンスと一致または超過する。 EARはまた、モデル、タスク、予測に対するそれらの影響を特定するのに役立つため、バイアスを誘発する可能性のある用語である過剰適合項も明らかにしている。

Natural Language Processing (NLP) models risk overfitting to specific terms in the training data, thereby reducing their performance, fairness, and generalizability. E.g., neural hate speech detection models are strongly influenced by identity terms like gay, or women, resulting in false positives, severe unintended bias, and lower performance. Most mitigation techniques use lists of identity terms or samples from the target domain during training. However, this approach requires a-priori knowledge and introduces further bias if important terms are neglected. Instead, we propose a knowledge-free Entropy-based Attention Regularization (EAR) to discourage overfitting to training-specific terms. An additional objective function penalizes tokens with low self-attention entropy. We fine-tune BERT via EAR: the resulting model matches or exceeds state-of-the-art performance for hate speech classification and bias metrics on three benchmark corpora in English and Italian. EAR also reveals overfitting terms, i.e., terms most likely to induce bias, to help identify their effect on the model, task, and predictions.
翻訳日:2022-03-18 14:48:07 公開日:2022-03-17
# ニューラルネットワーク翻訳のためのUniversal Conditional Masked Language Pre-training

Universal Conditional Masked Language Pre-training for Neural Machine Translation ( http://arxiv.org/abs/2203.09210v1 )

ライセンス: Link先を確認
Pengfei Li, Liangyou Li, Meng Zhang, Minghao Wu, Qun Liu(参考訳) 事前学習されたシーケンスからシーケンスへのモデルは、ニューラルネットワーク翻訳(nmt)を大幅に改善した。 本稿では,事前学習モデルが一方向デコーダを採用する場合と異なり,双方向デコーダを用いた場合,自己回帰型および非自己回帰型nmtにおいて有意な性能向上が得られることを示す。 具体的には,大規模バイリンガルコーパスとモノリンガルコーパスを事前学習した条件付きマスク付き言語モデルCeMATを提案する。 また,CeMATの拡張,コードスイッチングとマスキング,動的二重マスキングの2つの簡易かつ効果的な手法を導入する。 我々のCeMATは、低リソースで14.4BLEU、Autoregressive NMTで平均7.9BLEUの改善など、低リソースから極端に高いリソースを含むすべてのシナリオにおいて、大幅な性能向上を達成できることを示す。 非自己回帰NMTでは、最大5.3BLEUという一貫した性能向上が得られることを示す。 私たちが知る限りでは、両方のNMTタスクを微調整するための統一モデルを事前訓練する最初の作業である。 コード、データ、事前トレーニング済みモデルはhttps://github.com/h uawei-noah/Pretraine d-Language-Model/CeM ATで入手できる。

Pre-trained sequence-to-sequence models have significantly improved Neural Machine Translation (NMT). Different from prior works where pre-trained models usually adopt an unidirectional decoder, this paper demonstrates that pre-training a sequence-to-sequence model but with a bidirectional decoder can produce notable performance gains for both Autoregressive and Non-autoregressive NMT. Specifically, we propose CeMAT, a conditional masked language model pre-trained on large-scale bilingual and monolingual corpora in many languages. We also introduce two simple but effective methods to enhance the CeMAT, aligned code-switching & masking and dynamic dual-masking. We conduct extensive experiments and show that our CeMAT can achieve significant performance improvement for all scenarios from low to extremely high resource, i.e., up to 14.4 BLEU on low resource and 7.9 BLEU improvements on average for Autoregressive NMT. For Non-autoregressive NMT, we demonstrate it can also produce consistent performance gains, i.e., up to 5.3 BLEU. As far as we know, this is the first work to pre-train a unified model for fine-tuning on both NMT tasks. Code, data, and pre-trained models are available at https://github.com/h uawei-noah/Pretraine d-Language-Model/CeM AT
翻訳日:2022-03-18 14:47:47 公開日:2022-03-17
# 超球面空間によるインテリジェンス検出の信頼性校正と不確実性損失の再バランス

Confidence Calibration for Intent Detection via Hyperspherical Space and Rebalanced Accuracy-Uncertainty Loss ( http://arxiv.org/abs/2203.09278v1 )

ライセンス: Link先を確認
Yantao Gong, Cao Liu, Fan Yang, Xunliang Cai, Guanglu Wan, Jiansong Chen, Weipeng Zhang, Houfeng Wang(参考訳) データ駆動型メソッドは、ユーザクエリを理解するタスクであるインテント検出で注目すべきパフォーマンスを達成している。 それでも、自信過剰な予測については議論の余地がある。 一部のシナリオでは、ユーザーは精度だけでなくモデルの信頼性も気にしている。 残念ながら、主流のニューラルネットワークは、精度と信頼性の間に大きなギャップがあり、キャリブレーションが不十分である。 信頼性キャリブレーションとして定義されるこの問題に対処するため,超球面空間と精度・不確かさ損失の再バランスモデルを提案する。 具体的には,超球面空間にラベルベクトルを一様に投影して高密度なラベル表現行列を生成する。 さらに、モデルのトレーニングをガイドするために、異なる精度と不確実性のサンプルを再バランスさせます。 オープンデータセットを用いた実験により,本モデルが既存のキャリブレーション手法を上回っており,キャリブレーション指標の大幅な改善が得られた。

Data-driven methods have achieved notable performance on intent detection, which is a task to comprehend user queries. Nonetheless, they are controversial for over-confident predictions. In some scenarios, users do not only care about the accuracy but also the confidence of model. Unfortunately, mainstream neural networks are poorly calibrated, with a large gap between accuracy and confidence. To handle this problem defined as confidence calibration, we propose a model using the hyperspherical space and rebalanced accuracy-uncertainty loss. Specifically, we project the label vector onto hyperspherical space uniformly to generate a dense label representation matrix, which mitigates over-confident predictions due to overfitting sparce one-hot label matrix. Besides, we rebalance samples of different accuracy and uncertainty to better guide model training. Experiments on the open datasets verify that our model outperforms the existing calibration methods and achieves a significant improvement on the calibration metric.
翻訳日:2022-03-18 14:47:20 公開日:2022-03-17
# 静的および文脈的多言語埋め込みの組み合わせ

Combining Static and Contextualised Multilingual Embeddings ( http://arxiv.org/abs/2203.09326v1 )

ライセンス: Link先を確認
Katharina H\"ammerl, Jind\v{r}ich Libovick\'y, Alexander Fraser(参考訳) 静的および文脈的多言語埋め込みは相補的な強みを持つ。 静的埋め込みは、文脈言語モデルよりも表現力に乏しいが、複数の言語にまたがって簡単に整列できる。 静的モデルと文脈モデルの強みを組み合わせて多言語表現を改善する。 我々はXLM-Rから40言語に対する静的な埋め込みを抽出し、言語間単語検索でそれらの埋め込みを検証する。 これにより、高品質で多言語な静的埋め込みが得られる。 そこで我々は,XLM-Rの表現空間の整合性を向上するために,静的埋め込みの高品質なアライメントを活用する,新しい事前学習手法をXLM-Rに適用した。 複数の複雑な意味課題に対する肯定的な結果を示す。 静的埋め込みとトレーニング前のコードを引き続きリリースします。 これまでのほとんどの作業とは異なり、継続する事前学習アプローチは並列テキストを必要としない。

Static and contextual multilingual embeddings have complementary strengths. Static embeddings, while less expressive than contextual language models, can be more straightforwardly aligned across multiple languages. We combine the strengths of static and contextual models to improve multilingual representations. We extract static embeddings for 40 languages from XLM-R, validate those embeddings with cross-lingual word retrieval, and then align them using VecMap. This results in high-quality, highly multilingual static embeddings. Then we apply a novel continued pre-training approach to XLM-R, leveraging the high quality alignment of our static embeddings to better align the representation space of XLM-R. We show positive results for multiple complex semantic tasks. We release the static embeddings and the continued pre-training code. Unlike most previous work, our continued pre-training approach does not require parallel text.
翻訳日:2022-03-18 14:46:24 公開日:2022-03-17
# ブランクスレートの色付け:事前学習はシーケンス・ツー・シーケンスモデルに階層的誘導バイアスを与える

Coloring the Blank Slate: Pre-training Imparts a Hierarchical Inductive Bias to Sequence-to-sequence Models ( http://arxiv.org/abs/2203.09397v1 )

ライセンス: Link先を確認
Aaron Mueller, Robert Frank, Tal Linzen, Luheng Wang, Sebastian Schuster(参考訳) 単語間の関係は線形順序付けよりも階層構造によって支配される。 sequence-to-sequence (seq2seq)モデルは、下流のnlpアプリケーションでの成功にもかかわらず、構文変換を行う場合、階層的に一般化できないことが多い。 しかし、セク2セックモデルの構文評価は、セク2セックモデルの構文的能力は、言語モデルにおいて階層的な言語的一般化を誘導する事前学習が発見されているにもかかわらず、構文的変換を行うために訓練される前に自然言語データで事前訓練されていないモデルのみを観察している。 事前訓練されたセク2セックモデルT5とBARTと、その多言語変種mT5とmBARTを用いて、このギャップに対処する。 2つの言語における2つの変換(英語とドイツ語の質問形成と受動的化)を階層的に一般化するかどうかを評価する。 予備学習されたseq2seqモデルは、構文変換を行う際に階層的に一般化するが、構文変換のスクラッチからトレーニングされたモデルは一般化しない。 この結果は,非注釈の自然言語テキストから階層的構文情報の学習可能性を示すとともに,Seq2seqモデルは,人間の学習者が受けるよりもはるかに多くの言語データに曝露した後にのみ,構文的一般化が可能であることを証明している。

Relations between words are governed by hierarchical structure rather than linear ordering. Sequence-to-sequence (seq2seq) models, despite their success in downstream NLP applications, often fail to generalize in a hierarchy-sensitive manner when performing syntactic transformations - for example, transforming declarative sentences into questions. However, syntactic evaluations of seq2seq models have only observed models that were not pre-trained on natural language data before being trained to perform syntactic transformations, in spite of the fact that pre-training has been found to induce hierarchical linguistic generalizations in language models; in other words, the syntactic capabilities of seq2seq models may have been greatly understated. We address this gap using the pre-trained seq2seq models T5 and BART, as well as their multilingual variants mT5 and mBART. We evaluate whether they generalize hierarchically on two transformations in two languages: question formation and passivization in English and German. We find that pre-trained seq2seq models generalize hierarchically when performing syntactic transformations, whereas models trained from scratch on syntactic transformations do not. This result presents evidence for the learnability of hierarchical syntactic information from non-annotated natural language text while also demonstrating that seq2seq models are capable of syntactic generalization, though only after exposure to much more language data than human learners receive.
翻訳日:2022-03-18 14:46:12 公開日:2022-03-17
# 内部不一致に基づくOOD検出器による一般化ゼロショット学習のための意味多様性伝達ネットワーク

Semantic-diversity transfer network for generalized zero-shot learning via inner disagreement based OOD detector ( http://arxiv.org/abs/2203.09017v1 )

ライセンス: Link先を確認
Bo Liu, Qiulei Dong, Zhanyi Hu(参考訳) Zero-shot Learning (ZSL) は、視覚的特徴と意味的特徴の適切なマッピングを確立することで、見知らぬクラスから見つからないクラスに知識を伝達することである。 多くの現存する作品における知識伝達は、主に事実によって制限されている。 1) 広く使われている視覚機能はグローバルだが、意味属性と完全に一致していない。 2) 多様な視覚・感覚関係を効果的にモデル化できない既存の著作物では1つのマッピングしか学習できない。 3)一般化ZSL(GZSL)のバイアス問題は効果的に処理できない。 本稿では,これらの制約を緩和する2つの手法を提案する。 まず、最初の2つの制限に対処するセマンティック・ダイバーシティ・トランスファーネットワーク(SetNet)を提案する。 1)マルチアテンションアーキテクチャと多様性レギュレータを提案し,セマンティック属性とより整合した複数の局所的な視覚特徴を学習する。 2) 幾何的に様々な局所的特徴を入力として取り込むプロジェクタアンサンブルは, 多様な局所的視点から視覚・視覚関係をモデル化するために提案されている。 次に,GZSLにおける内部不一致に基づくドメイン検出モジュール(ID3M)を提案する。 トレーニング段階では未確認データがないため、ID3Mは新たな自己完結型トレーニングスキームを採用し、設計された内部不一致基準に基づいて未確認データを検出する。 3つの公開データセットの実験結果は、探索されたID3Mで提案されたSetNetが、30ドルの最先端メソッドに対して大幅に改善されていることを示している。

Zero-shot learning (ZSL) aims to recognize objects from unseen classes, where the kernel problem is to transfer knowledge from seen classes to unseen classes by establishing appropriate mappings between visual and semantic features. The knowledge transfer in many existing works is limited mainly due to the facts that 1) the widely used visual features are global ones but not totally consistent with semantic attributes; 2) only one mapping is learned in existing works, which is not able to effectively model diverse visual-semantic relations; 3) the bias problem in the generalized ZSL (GZSL) could not be effectively handled. In this paper, we propose two techniques to alleviate these limitations. Firstly, we propose a Semantic-diversity transfer Network (SetNet) addressing the first two limitations, where 1) a multiple-attention architecture and a diversity regularizer are proposed to learn multiple local visual features that are more consistent with semantic attributes and 2) a projector ensemble that geometrically takes diverse local features as inputs is proposed to model visual-semantic relations from diverse local perspectives. Secondly, we propose an inner disagreement based domain detection module (ID3M) for GZSL to alleviate the third limitation, which picks out unseen-class data before class-level classification. Due to the absence of unseen-class data in training stage, ID3M employs a novel self-contained training scheme and detects out unseen-class data based on a designed inner disagreement criterion. Experimental results on three public datasets demonstrate that the proposed SetNet with the explored ID3M achieves a significant improvement against $30$ state-of-the-art methods.
翻訳日:2022-03-18 14:41:43 公開日:2022-03-17
# データ:ドメイン認識とタスク認識事前トレーニング

DATA: Domain-Aware and Task-Aware Pre-training ( http://arxiv.org/abs/2203.09041v1 )

ライセンス: Link先を確認
Qing Chang, Junran Peng, Lingxie Xie, Jiajun Sun, Haoran Yin, Qi Tian, Zhaoxiang Zhang(参考訳) 自己教師付き学習(SSL)と多くの下流タスクの微調整によるラベルのない大規模データのトレーニングモデルのパラダイムが最近流行している。 しかしながら、多くの自己教師付き学習方法は、高い訓練コストと下流利用の無意識のため、さまざまなデータドメイン、異なるビジョンタスク、モデルのレイテンシ制約があるため、下流シナリオの多様性に対応する能力が欠如している。 ニューラルネットワークサーチ(NAS)は上記の問題を克服するために広く認められた手法であるが、モデル選択を判断するためのラベルやメトリクスが存在しないため、SSLにNASを適用することは不可能である。 本稿では,ドメイン・アウェアとタスク・アウェアの事前トレーニングを提供するSSLに特化した,シンプルで効果的なNASアプローチであるDataについて述べる。 具体的には (i)ラベルなしで広範囲のモデルスケールをカバーする数百万のネットワークの集合と見なすことができるスーパーネットを訓練すること。 (ii)様々なダウンストリームビジョンタスクやデータドメインに対して、明示的なメトリックを提供することなく、異なる計算コストのネットワークを見つけることができるsslと互換性のある柔軟な検索機構を提案する。 moco v2をインスタンス化したこの手法は,画像分類やオブジェクト検出,セマンティクスセグメンテーションなど,下流タスクの幅広い計算コストにわたって有望な結果が得られる。 Dataは既存のSSLメソッドに直交しており、ダウンストリームのニーズに応じてカスタマイズする機能を提供する。 他のSSLメソッドに対する大規模な実験は、提案手法の一般化可能性を示している。 コードはhttps://github.com/g aia-vision/gaia-sslでリリース

The paradigm of training models on massive data without label through self-supervised learning (SSL) and finetuning on many downstream tasks has become a trend recently. However, due to the high training costs and the unconsciousness of downstream usages, most self-supervised learning methods lack the capability to correspond to the diversities of downstream scenarios, as there are various data domains, different vision tasks and latency constraints on models. Neural architecture search (NAS) is one universally acknowledged fashion to conquer the issues above, but applying NAS on SSL seems impossible as there is no label or metric provided for judging model selection. In this paper, we present DATA, a simple yet effective NAS approach specialized for SSL that provides Domain-Aware and Task-Aware pre-training. Specifically, we (i) train a supernet which could be deemed as a set of millions of networks covering a wide range of model scales without any label, (ii) propose a flexible searching mechanism compatible with SSL that enables finding networks of different computation costs, for various downstream vision tasks and data domains without explicit metric provided. Instantiated With MoCo v2, our method achieves promising results across a wide range of computation costs on downstream tasks, including image classification, object detection and semantic segmentation. DATA is orthogonal to most existing SSL methods and endows them the ability of customization on downstream needs. Extensive experiments on other SSL methods demonstrate the generalizability of the proposed method. Code is released at https://github.com/G AIA-vision/GAIA-ssl
翻訳日:2022-03-18 14:41:16 公開日:2022-03-17
# 潜在画像アニメーター:潜在空間ナビゲーションによる画像のアニメーション化への学習

Latent Image Animator: Learning to Animate Images via Latent Space Navigation ( http://arxiv.org/abs/2203.09043v1 )

ライセンス: Link先を確認
Yaohui Wang, Di Yang, Francois Bremond, Antitza Dantcheva(参考訳) 深部生成モデルの顕著な進歩により、画像のアニメーション化は効率が増し、関連する結果はますます現実的になっている。 現在のアニメーションアパッチは、駆動ビデオから抽出された構造表現を一般的に利用している。 このような構造表現は、運転映像から静止画像への動きの伝達に有効である。 しかし、ソース画像と駆動ビデオが大きな外観変化を含む場合、そのようなアプローチは失敗する。 さらに,構造情報の抽出には,複雑なアニメーションモデルを実現するモジュールの追加が必要である。 このようなモデルから逸脱して、構造表現の必要性を回避する自己教師型オートエンコーダであるLatent Image Animator (LIA)を導入する。 LIAは、潜伏空間における線形ナビゲーションによって画像をアニメーションするために合理化される。 具体的には、生成されたビデオ内の動きは、潜時空間の符号の線形変位によって構成される。 これに向けて、直交運動方向の集合を同時に学習し、その線形結合を用いて、潜在空間における任意の変位を表す。 我々のモデルは,VoxCeleb,Taichi,TED -talkのデータセットから生成した品質を体系的に,かつ著しく上回ることを示す。

Due to the remarkable progress of deep generative models, animating images has become increasingly efficient, whereas associated results have become increasingly realistic. Current animation-approaches commonly exploit structure representation extracted from driving videos. Such structure representation is instrumental in transferring motion from driving videos to still images. However, such approaches fail in case the source image and driving video encompass large appearance variation. Moreover, the extraction of structure information requires additional modules that endow the animation-model with increased complexity. Deviating from such models, we here introduce the Latent Image Animator (LIA), a self-supervised autoencoder that evades need for structure representation. LIA is streamlined to animate images by linear navigation in the latent space. Specifically, motion in generated video is constructed by linear displacement of codes in the latent space. Towards this, we learn a set of orthogonal motion directions simultaneously, and use their linear combination, in order to represent any displacement in the latent space. Extensive quantitative and qualitative analysis suggests that our model systematically and significantly outperforms state-of-art methods on VoxCeleb, Taichi and TED-talk datasets w.r.t. generated quality.
翻訳日:2022-03-18 14:40:50 公開日:2022-03-17
# 不均一文書画像からのロバストテーブル検出と構造認識

Robust Table Detection and Structure Recognition from Heterogeneous Document Images ( http://arxiv.org/abs/2203.09056v1 )

ライセンス: Link先を確認
Chixiang Ma, Weihong Lin, Lei Sun, Qiang Huo(参考訳) 我々は、テーブルの境界を検出し、異種文書画像からテーブルの細胞構造を再構築するRobusTabNetという新しいテーブル検出と構造認識手法を提案する。 テーブル検出のために,我々はCornerNetを新しい領域提案ネットワークとして使用し,テーブル検出のための高速R-CNNのローカライズ精度を大幅に向上させた高速R-CNNの高品質なテーブル提案を生成することを提案する。 これにより,軽量なresnet-18バックボーンネットワークのみを用いて,ctdar tracka,publaynet,iii t-ar-13kの3つの公開テーブル検出ベンチマークで最先端のパフォーマンスを実現する。 さらに,新たな分割・統合型テーブル構造認識手法を提案し,新たに空間的CNNベースの分離線予測モジュールを提案し,検出したテーブルを格子状に分割し,グリッドCNNベースのセルマージモジュールを適用して分散セルを復元する。 空間的CNNモジュールは表画像全体にわたって文脈情報を効果的に伝達できるため、テーブル構造認識器は大きな空白空間を持つテーブルと幾何学的に歪んだテーブルをしっかり認識することができる。 これらの2つの手法により、SciTSR、PubTabNet、cTDaR TrackBを含む3つの公開ベンチマークにおいて、テーブル構造認識手法は最先端のパフォーマンスを実現する。 さらに,複雑な構造を持つテーブル,大きな空白空間,空セルあるいはスパンセル,さらには幾何学的に歪んだテーブルや曲面テーブルを,社内でより困難なデータセット上で認識する手法の利点をさらに実証した。

We introduce a new table detection and structure recognition approach named RobusTabNet to detect the boundaries of tables and reconstruct the cellular structure of the table from heterogeneous document images. For table detection, we propose to use CornerNet as a new region proposal network to generate higher quality table proposals for Faster R-CNN, which has significantly improved the localization accuracy of Faster R-CNN for table detection. Consequently, our table detection approach achieves state-of-the-art performance on three public table detection benchmarks, namely cTDaR TrackA, PubLayNet and IIIT-AR-13K, by only using a lightweight ResNet-18 backbone network. Furthermore, we propose a new split-and-merge based table structure recognition approach, in which a novel spatial CNN based separation line prediction module is proposed to split each detected table into a grid of cells, and a Grid CNN based cell merging module is applied to recover the spanning cells. As the spatial CNN module can effectively propagate contextual information across the whole table image, our table structure recognizer can robustly recognize tables with large blank spaces and geometrically distorted (even curved) tables. Thanks to these two techniques, our table structure recognition approach achieves state-of-the-art performance on three public benchmarks, including SciTSR, PubTabNet and cTDaR TrackB. Moreover, we have further demonstrated the advantages of our approach in recognizing tables with complex structures, large blank spaces, empty or spanning cells as well as geometrically distorted or even curved tables on a more challenging in-house dataset.
翻訳日:2022-03-18 14:40:32 公開日:2022-03-17
# stpls3d - 大規模合成および実航空写真撮影用3dポイントクラウドデータセット

STPLS3D: A Large-Scale Synthetic and Real Aerial Photogrammetry 3D Point Cloud Dataset ( http://arxiv.org/abs/2203.09065v1 )

ライセンス: Link先を確認
Meida Chen, Qingyong Hu, Thomas Hugues, Andrew Feng, Yu Hou, Kyle McCullough, Lucio Soibelman(参考訳) 近年,様々な機能やスケールの3dデータセットが提案されているが,大規模データ収集,衛生化,アノテーションのパイプライン全体を完成させるのは難しいままである。 さらに、生成されたデータセットは通常、極めて不均衡なクラス分布や部分的な低品質データサンプルに悩まされる。 そこで本研究では,3dデータ生成手法を用いて,大規模アノテーテッド・フォトグラメトリー・ポイント・クラウドを作製する能力を個人に与える方法について検討する。 具体的には,オープンな地理空間データソースと市販の商用パッケージをフル活用した合成空中測光点雲生成パイプラインを提案する。 シミュレーションデータは通常アーティストが生成する限られたゲーム環境を持つ仮想ゲームにおいて合成データを生成するのとは異なり、提案したパイプラインは、異なる合成地形形状に同じUAV飛行パターンを追従し、実際のデータで同様の品質、ノイズパターン、多様性を保証することで、実際の環境の再構築プロセスをシミュレートする。 さらに、正確なセマンティックアノテーションとインスタンスアノテーションが完全に自動生成され、高価で時間を要するマニュアルアノテーションを避けることができる。 提案するパイプラインに基づいて,stls3dと呼ばれる,高度に注釈付き合成された3次元航空写真計測ポイントクラウドデータセットを提示する。 検証のために,実環境の4つの領域から収集した並列データセットも提供する。 提案した合成データセットの有効性と品質について実験を行った。

Although various 3D datasets with different functions and scales have been proposed recently, it remains challenging for individuals to complete the whole pipeline of large-scale data collection, sanitization, and annotation. Moreover, the created datasets usually suffer from extremely imbalanced class distribution or partial low-quality data samples. Motivated by this, we explore the procedurally synthetic 3D data generation paradigm to equip individuals with the full capability of creating large-scale annotated photogrammetry point clouds. Specifically, we introduce a synthetic aerial photogrammetry point clouds generation pipeline that takes full advantage of open geospatial data sources and off-the-shelf commercial packages. Unlike generating synthetic data in virtual games, where the simulated data usually have limited gaming environments created by artists, the proposed pipeline simulates the reconstruction process of the real environment by following the same UAV flight pattern on different synthetic terrain shapes and building densities, which ensure similar quality, noise pattern, and diversity with real data. In addition, the precise semantic and instance annotations can be generated fully automatically, avoiding the expensive and time-consuming manual annotation. Based on the proposed pipeline, we present a richly-annotated synthetic 3D aerial photogrammetry point cloud dataset, termed STPLS3D, with more than 16 $km^2$ of landscapes and up to 18 fine-grained semantic categories. For verification purposes, we also provide a parallel dataset collected from four areas in the real environment. Extensive experiments conducted on our datasets demonstrate the effectiveness and quality of the proposed synthetic dataset.
翻訳日:2022-03-18 14:39:59 公開日:2022-03-17
# 高品質表面再構成のための深部点雲の簡易化

Deep Point Cloud Simplification for High-quality Surface Reconstruction ( http://arxiv.org/abs/2203.09088v1 )

ライセンス: Link先を確認
Yuanqi Li, Jianwei Guo, Xinran Yang, Shun Liu, Jie Guo, Xiaopeng Zhang, Yanwen Guo(参考訳) ポイントクラウドの増大は、ストレージ、送信、計算の3Dシーンの消費を拡大する。 生データは冗長でノイズがあり、一様ではない。 したがって、コンパクトでクリーンで均一な点を達成するための点雲の単純化は、3Dビジョンやグラフィックタスクにとってますます重要になっている。 従来の学習手法は, 表面再構成の品質に関わらず, シーン理解のためのポイントを少なくすることを目的としており, 再現精度が低く, 不良点分布も少ない結果となる。 本稿では,幾何学的忠実度を維持しつつ,高品質な表面メッシュ再構築を目的とした新しい点雲単純化ネットワーク(PCS-Net)を提案する。 まず,特徴認識型単純化モジュールでサンプリング行列を学習し,点数を削減する。 そこで我々は,サンプル点の位置を洗練し,一様分布を実現するための新しい二重スケール再サンプリングモジュールを提案する。 重要な形状特性をさらに維持するため、新規な塩分損失を有する適応サンプリング戦略を設計する。 我々のPCS-Netでは、入力された不均一点とノイズ点の雲を特徴認識で単純化することができる。 提案手法の有効性を実証し, 従来の単純化法や再構築指向のアップサンプリング法より優れていることを示す。

The growing size of point clouds enlarges consumptions of storage, transmission, and computation of 3D scenes. Raw data is redundant, noisy, and non-uniform. Therefore, simplifying point clouds for achieving compact, clean, and uniform points is becoming increasingly important for 3D vision and graphics tasks. Previous learning based methods aim to generate fewer points for scene understanding, regardless of the quality of surface reconstruction, leading to results with low reconstruction accuracy and bad point distribution. In this paper, we propose a novel point cloud simplification network (PCS-Net) dedicated to high-quality surface mesh reconstruction while maintaining geometric fidelity. We first learn a sampling matrix in a feature-aware simplification module to reduce the number of points. Then we propose a novel double-scale resampling module to refine the positions of the sampled points, to achieve a uniform distribution. To further retain important shape features, an adaptive sampling strategy with a novel saliency loss is designed. With our PCS-Net, the input non-uniform and noisy point cloud can be simplified in a feature-aware manner, i.e., points near salient features are consolidated but still with uniform distribution locally. Experiments demonstrate the effectiveness of our method and show that we outperform previous simplification or reconstruction-orien ted upsampling methods.
翻訳日:2022-03-18 14:39:31 公開日:2022-03-17
# クロスビュージオローカライゼーションのための相互生成変換器学習

Mutual Generative Transformer Learning for Cross-view Geo-localization ( http://arxiv.org/abs/2203.09135v1 )

ライセンス: Link先を確認
Jianwei Zhao and Qiang Zhai and Rui Huang and Hong Cheng(参考訳) 地上カメラの地理的位置を、巨大なジオタグ付き空中画像(衛星画像など)と照合して推定することを目的としたクロスビュージオローカライゼーション(CVGL)は、視界の相違により非常に困難である。 既存の手法は主にシームズ様のCNNを用いて、二つのモード間の相互利益を調べることなくグローバルな記述子を抽出する。 本稿では,CVGLにおける相互生成型トランスフォーマー学習(MGTL)と相まって,クロスモーダルな知識生成手法を用いた新しい手法を提案する。 特にmgtlは、地上レベルの意味情報から空中的な知識を生成するための2つの異なる生成モジュールを開発し、その相互利益を注意機構を通じて完全に活用している。 CVACTとCVUSAの挑戦的な公開ベンチマーク実験は、既存の最先端モデルと比較して提案手法の有効性を実証している。

Cross-view geo-localization (CVGL), which aims to estimate the geographical location of the ground-level camera by matching against enormous geo-tagged aerial (e.g., satellite) images, remains extremely challenging due to the drastic appearance differences across views. Existing methods mainly employ Siamese-like CNNs to extract global descriptors without examining the mutual benefits between the two modes. In this paper, we present a novel approach using cross-modal knowledge generative tactics in combination with transformer, namely mutual generative transformer learning (MGTL), for CVGL. Specifically, MGTL develops two separate generative modules--one for aerial-like knowledge generation from ground-level semantic information and vice versa--and fully exploits their mutual benefits through the attention mechanism. Experiments on challenging public benchmarks, CVACT and CVUSA, demonstrate the effectiveness of the proposed method compared to the existing state-of-the-art models.
翻訳日:2022-03-18 14:39:11 公開日:2022-03-17
# Biasing Like Human: シーングラフ生成のための認知バイアスフレームワーク

Biasing Like Human: A Cognitive Bias Framework for Scene Graph Generation ( http://arxiv.org/abs/2203.09160v1 )

ライセンス: Link先を確認
Xiaoguang Chang, Teng Wang, Changyin Sun and Wenzhe Cai(参考訳) シーングラフ生成は、特定の認識パターンがないため、洗練されたタスクである(例えば、" look at" と "near" は視覚に関して顕著な違いを持たないが、"near" は異なる形態を持つエンティティ間で起こる可能性がある)。 したがって、いくつかのシーングラフ生成方法は、有能な視覚的特徴と自明なデータセットアノテーションによって引き起こされる最も頻繁な関係予測に閉じ込められる。 したがって、最近の研究は、より情報的なシーングラフの予測のバランスをとるための「偏見のない」アプローチを強調した。 しかしながら、多数の物体間の関係に関する人間の迅速かつ正確な判断は、純粋な視覚よりもむしろ「バイアス」(すなわち経験と言語知識)に帰せられるべきである。 認知バイアス(cognitive bias)機構にインスパイアされたモデル能力を向上させるために,ラベル言語的特徴を視覚に基づく表現のガイダンスとして組み込む手法をシミュレートし,隠れた関係パターンの抽出とノイズの少ない視覚伝搬を緩和する,新たな3パラダイムフレームワークを提案する。 私たちのフレームワークは、どんなシーングラフモデルにも非依存です。 包括的実験により、我々のフレームワークは、最小パラメータの増加を伴ういくつかのメトリクスでベースラインモジュールよりも優れており、Visual Genomeデータセット上で新しいSOTAパフォーマンスを実現する。

Scene graph generation is a sophisticated task because there is no specific recognition pattern (e.g., "looking at" and "near" have no conspicuous difference concerning vision, whereas "near" could occur between entities with different morphology). Thus some scene graph generation methods are trapped into most frequent relation predictions caused by capricious visual features and trivial dataset annotations. Therefore, recent works emphasized the "unbiased" approaches to balance predictions for a more informative scene graph. However, human's quick and accurate judgments over relations between numerous objects should be attributed to "bias" (i.e., experience and linguistic knowledge) rather than pure vision. To enhance the model capability, inspired by the "cognitive bias" mechanism, we propose a novel 3-paradigms framework that simulates how humans incorporate the label linguistic features as guidance of vision-based representations to better mine hidden relation patterns and alleviate noisy visual propagation. Our framework is model-agnostic to any scene graph model. Comprehensive experiments prove our framework outperforms baseline modules in several metrics with minimum parameters increment and achieves new SOTA performance on Visual Genome dataset.
翻訳日:2022-03-18 14:38:54 公開日:2022-03-17
# 詳細またはアーティファクト:写実的画像超解像に対する局所的判別学習アプローチ

Details or Artifacts: A Locally Discriminative Learning Approach to Realistic Image Super-Resolution ( http://arxiv.org/abs/2203.09195v1 )

ライセンス: Link先を確認
Jie Liang and Hui Zeng and Lei Zhang(参考訳) 近年,GAN (Generative Adversarial Network) を用いた画像超解像 (SISR) が注目されている。 しかし、GANの訓練は不安定であり、多くの知覚的に不快なアーティファクトと生成された詳細を導入することが多い。 本稿では、視覚的アーチファクトを抑えつつ、知覚的にリアルなディテールを安定的に生成できるGANベースのSISRモデルを訓練できることを実証する。 人工物領域の局所統計(例えば、残留分散)が知覚的に友好的な詳細の領域としばしば異なるという観測に基づいて、gan生成物と現実的な詳細を区別する枠組みを開発し、その結果、モデルトレーニングプロセスを規則化し安定化する人工物マップを作成する。 提案する局所判別学習法(ldl)は単純かつ効果的であり,既設のsisr法に容易に接続でき,その性能を高めることができる。 実験により、LDLは最先端のGANベースのSISR法よりも優れており、高い再現精度だけでなく、合成データセットと実世界のデータセットの知覚品質も優れていることが示された。 コードとモデルはhttps://github.com/c sjliang/ldlで入手できる。

Single image super-resolution (SISR) with generative adversarial networks (GAN) has recently attracted increasing attention due to its potentials to generate rich details. However, the training of GAN is unstable, and it often introduces many perceptually unpleasant artifacts along with the generated details. In this paper, we demonstrate that it is possible to train a GAN-based SISR model which can stably generate perceptually realistic details while inhibiting visual artifacts. Based on the observation that the local statistics (e.g., residual variance) of artifact areas are often different from the areas of perceptually friendly details, we develop a framework to discriminate between GAN-generated artifacts and realistic details, and consequently generate an artifact map to regularize and stabilize the model training process. Our proposed locally discriminative learning (LDL) method is simple yet effective, which can be easily plugged in off-the-shelf SISR methods and boost their performance. Experiments demonstrate that LDL outperforms the state-of-the-art GAN based SISR methods, achieving not only higher reconstruction accuracy but also superior perceptual quality on both synthetic and real-world datasets. Codes and models are available at https://github.com/c sjliang/LDL.
翻訳日:2022-03-18 14:38:31 公開日:2022-03-17
# 手術ワークフロー認識:課題の分析から建築研究へ

Surgical Workflow Recognition: from Analysis of Challenges to Architectural Study ( http://arxiv.org/abs/2203.09230v1 )

ライセンス: Link先を確認
Tobias Czempiel, Aidean Sharghi, Magdalini Paschali, Omid Mohareri(参考訳) アルゴリズムによる手術ワークフロー認識は、現在進行中の研究分野であり、腹腔鏡(内部)と手術室(外部)に分けられる。 これまで、異なるワークフローフェーズ間の時間的曖昧さに対処するために、フレームレベルと追加の時間モデルの組み合わせで、内部分析のための多くの異なる研究が提案されてきた。 外部認識タスクでは、ORシーンに存在する局所的な曖昧さを対象とするClipレベルの手法が注目されている。 本研究では,外科的ワークフロー認識の課題に対する異なるモデルアーキテクチャの組み合わせを評価し,内部解析と外部解析の両手法を公平に比較する。 内部分析のために設計されたメソッドは、異なるアーキテクチャのパフォーマンス向上と同等の性能で外部タスクに転送できることを示す。

Algorithmic surgical workflow recognition is an ongoing research field and can be divided into laparoscopic (Internal) and operating room (External) analysis. So far many different works for the internal analysis have been proposed with the combination of a frame-level and an additional temporal model to address the temporal ambiguities between different workflow phases. For the External recognition task, Clip-level methods are in the focus of researchers targeting the local ambiguities present in the OR scene. In this work we evaluate combinations of different model architectures for the task of surgical workflow recognition to provide a fair comparison of the methods for both Internal and External analysis. We show that methods designed for the Internal analysis can be transferred to the external task with comparable performance gains for different architectures.
翻訳日:2022-03-18 14:38:09 公開日:2022-03-17
# ART-SS:悪天候画像に対する半監督修復のための適応的拒絶法

ART-SS: An Adaptive Rejection Technique for Semi-Supervised restoration for adverse weather-affected images ( http://arxiv.org/abs/2203.09275v1 )

ライセンス: Link先を確認
Rajeev Yasarla, Carey E. Priebe, and Vishal Patel(参考訳) 近年,畳み込みニューラルネットワークを用いた悪天候除去手法が,多くのベンチマークデータセットで有意な性能向上を達成している。 しかし、これらの方法はトレーニングのために大量のクリーンウェザー劣化画像ペアを必要とするため、実際は入手が難しいことが多い。 様々な気象劣化合成法が文献に存在しているが、合成した気象劣化画像を使用することで、合成画像と実世界の画像の領域差による実際の気象劣化画像の最適性能が低下することが多い。 この問題に対処するために,合成したデータセットを用いてクリーン画像の復元を学習し,ラベル付き実世界画像を用いてより汎用化するための半教師付き復元(ssr)法が提案されている。 半教師付き手法の性能は、基本的にラベルなしデータの品質に基づいている。 特にラベルのないデータ特性がラベル付きデータと大きく異なる場合、半教師付き手法の性能は著しく低下する。 ssr法の性能に及ぼすラベルなしデータの影響を理論的に検討し,その性能を低下させるラベルなし画像を拒絶する手法を開発した。 大規模な実験およびアブレーション実験により,提案法は既存のSSRデラライニング法および脱ハージング法の性能を著しく向上させることが示された。 コードはhttps://github.com/r ajeevyasarla/ART-SSで公開されている。

In recent years, convolutional neural network-based single image adverse weather removal methods have achieved significant performance improvements on many benchmark datasets. However, these methods require large amounts of clean-weather degraded image pairs for training, which is often difficult to obtain in practice. Although various weather degradation synthesis methods exist in the literature, the use of synthetically generated weather degraded images often results in sub-optimal performance on the real weather degraded images due to the domain gap between synthetic and real-world images. To deal with this problem, various semi-supervised restoration (SSR) methods have been proposed for deraining or dehazing which learn to restore the clean image using synthetically generated datasets while generalizing better using unlabeled real-world images. The performance of a semi-supervised method is essentially based on the quality of the unlabeled data. In particular, if the unlabeled data characteristics are very different from that of the labeled data, then the performance of a semi-supervised method degrades significantly. We theoretically study the effect of unlabeled data on the performance of an SSR method and develop a technique that rejects the unlabeled images that degrade the performance. Extensive experiments and ablation study show that the proposed sample rejection method increases the performance of existing SSR deraining and dehazing methods significantly. Code is available at :https://github.com/ rajeevyasarla/ART-SS
翻訳日:2022-03-18 14:37:57 公開日:2022-03-17
# (参考訳) OOD検出とタスクマスキングに基づく連続学習 [全文訳有]

Continual Learning Based on OOD Detection and Task Masking ( http://arxiv.org/abs/2203.09450v1 )

ライセンス: CC BY 4.0
Gyuhak Kim, Sepideh Esmaeilpour, Changnan Xiao, Bing Liu(参考訳) 既存の連続学習技術では、タスクインクリメンタル学習(til)またはクラスインクリメンタル学習(cil)の問題にフォーカスしているが、両方ではない。 CILとTILは、主にTILのテスト中に各テストサンプルにタスクIDが提供されるが、CILには提供されないという点で異なっている。 ある問題に対する継続的な学習方法は、他の問題に制限がある。 本稿では,2つの問題を解決するために,out-of-distribution (ood) 検出とclomと呼ばれるタスクマスキングに基づく新しい統一手法を提案する。 重要な新機能は、各タスクが従来の教師付き学習モデルではなく、ood検出モデルとしてトレーニングされ、タスクマスクが各タスクを保護して忘れないようにすることだ。 評価の結果,CLOMは既存の最先端のベースラインよりも大きなマージンで優れていた。 CLOMの6つの実験の平均TIL/CIL精度は87.6/67.9%、最高のベースラインは82.4/55.0%である。

Existing continual learning techniques focus on either task incremental learning (TIL) or class incremental learning (CIL) problem, but not both. CIL and TIL differ mainly in that the task-id is provided for each test sample during testing for TIL, but not provided for CIL. Continual learning methods intended for one problem have limitations on the other problem. This paper proposes a novel unified approach based on out-of-distribution (OOD) detection and task masking, called CLOM, to solve both problems. The key novelty is that each task is trained as an OOD detection model rather than a traditional supervised learning model, and a task mask is trained to protect each task to prevent forgetting. Our evaluation shows that CLOM outperforms existing state-of-the-art baselines by large margins. The average TIL/CIL accuracy of CLOM over six experiments is 87.6/67.9% while that of the best baselines is only 82.4/55.0%.
翻訳日:2022-03-18 14:35:18 公開日:2022-03-17
# ガウス過程回帰における最大確率推定は不適切である

Maximum Likelihood Estimation in Gaussian Process Regression is Ill-Posed ( http://arxiv.org/abs/2203.09179v1 )

ライセンス: Link先を確認
Toni Karvonen and Chris J. Oates(参考訳) ガウス過程の回帰は、機械学習と統計学の無数の学術的および工業的応用を基盤としており、最大推定値は、共分散カーネルの適切なパラメータを選択するために日常的に使用される。 しかし, 最大確率推定が適切である状況を確立することは, いまだに未解決の問題である。 すなわち、回帰モデルの予測がトレーニングデータにおいて連続(または小さな摂動に敏感)であるときである。 本稿では,最大極大推定器がHellinger距離で十分に推定できないという厳密な証明を,データがノイズのないシナリオで提示する。 故障ケースは、最大値を用いて長大パラメータを推定する定常共分散関数を持つガウス過程において発生する。 最大確率推定の失敗は非公式によく知られているが、これらの理論的な結果はこの種の最初のものと考えられており、ガウス過程モデルを訓練するために最大確率推定が使用される場合、ケース・バイ・ケースベースで、適切性を評価する必要があることを示唆している。

Gaussian process regression underpins countless academic and industrial applications of machine learning and statistics, with maximum likelihood estimation routinely used to select appropriate parameters for the covariance kernel. However, it remains an open problem to establish the circumstances in which maximum likelihood estimation is well-posed. That is, when the predictions of the regression model are continuous (or insensitive to small perturbations) in the training data. This article presents a rigorous proof that the maximum likelihood estimator fails to be well-posed in Hellinger distance in a scenario where the data are noiseless. The failure case occurs for any Gaussian process with a stationary covariance function whose lengthscale parameter is estimated using maximum likelihood. Although the failure of maximum likelihood estimation is informally well-known, these theoretical results appear to be the first of their kind, and suggest that well-posedness may need to be assessed post-hoc, on a case-by-case basis, when maximum likelihood estimation is used to train a Gaussian process model.
翻訳日:2022-03-18 14:11:13 公開日:2022-03-17
# 回帰のための深層バッチアクティブラーニングのためのフレームワークとベンチマーク

A Framework and Benchmark for Deep Batch Active Learning for Regression ( http://arxiv.org/abs/2203.09410v1 )

ライセンス: Link先を確認
David Holzm\"uller, Viktor Zaverkin, Johannes K\"astner, Ingo Steinwart(参考訳) 本研究では,異なるプール型バッチモード深部能動学習(BMDAL)手法を用いて,表層データに対する回帰評価を行い,ネットワークアーキテクチャやトレーニングを変更する必要のない手法に着目した。 まず、カーネル、カーネル変換、選択メソッドからBMDALメソッドを構築するためのフレームワークを示し、最も人気のあるBMDALメソッドの多くが私たちのフレームワークに適合していることを示します。 次に,新しいBMDAL手法を提案する。 第3に,BMDALの異なる手法を比較するために,15個の大きな表付きデータセットを持つオープンソースベンチマークを導入する。 ベンチマークの結果,新しいコンポーネントを組み合わせることで,RMSEの観点で新たな成果が得られ,計算効率が向上することがわかった。 私たちは、すべてのカーネル、カーネル変換、選択メソッドの効率的な実装を含むオープンソースコードを提供し、結果の再現に使用しています。

We study the performance of different pool-based Batch Mode Deep Active Learning (BMDAL) methods for regression on tabular data, focusing on methods that do not require to modify the network architecture and training. Our contributions are three-fold: First, we present a framework for constructing BMDAL methods out of kernels, kernel transformations and selection methods, showing that many of the most popular BMDAL methods fit into our framework. Second, we propose new components, leading to a new BMDAL method. Third, we introduce an open-source benchmark with 15 large tabular data sets, which we use to compare different BMDAL methods. Our benchmark results show that a combination of our novel components yields new state-of-the-art results in terms of RMSE and is computationally efficient. We provide open-source code that includes efficient implementations of all kernels, kernel transformations, and selection methods, and can be used for reproducing our results.
翻訳日:2022-03-18 14:10:54 公開日:2022-03-17
# 産業品質管理のための対話型説明AIシステム

An Interactive Explanatory AI System for Industrial Quality Control ( http://arxiv.org/abs/2203.09181v1 )

ライセンス: Link先を確認
Dennis M\"uller, Michael M\"arz, Stephan Scheele, Ute Schmid(参考訳) 深層ニューラルネットワークアプローチのような機械学習に基づく画像分類アルゴリズムは、透明性と決定の理解性が不可欠である業界における品質管理のような重要な設定に、ますます採用されていくだろう。 そこで本研究では,従来のデータ駆動型アプローチを超越した,豊富なバックグラウンド知識と複雑な関係の推論を統合可能な,インタラクティブなHuman-in-the-loopアプローチに向けて,欠陥検出タスクを拡張することを目的とする。 本稿では、知識駆動型とデータ駆動型の両方の機械学習手法、特に帰納的論理プログラミングと畳み込みニューラルネットワークの利点を人間の専門知識と制御に組み合わせた、産業品質制御における分類のための対話型支援システムを提案する。 結果として得られたシステムは、ドメインの専門家の意思決定を支援し、その結果に関する透過的な説明を提供し、ユーザからのフィードバックを統合する。

Machine learning based image classification algorithms, such as deep neural network approaches, will be increasingly employed in critical settings such as quality control in industry, where transparency and comprehensibility of decisions are crucial. Therefore, we aim to extend the defect detection task towards an interactive human-in-the-loop approach that allows us to integrate rich background knowledge and the inference of complex relationships going beyond traditional purely data-driven approaches. We propose an approach for an interactive support system for classifications in an industrial quality control setting that combines the advantages of both (explainable) knowledge-driven and data-driven machine learning methods, in particular inductive logic programming and convolutional neural networks, with human expertise and control. The resulting system can assist domain experts with decisions, provide transparent explanations for results, and integrate feedback from users; thus reducing workload for humans while both respecting their expertise and without removing their agency or accountability.
翻訳日:2022-03-18 14:08:07 公開日:2022-03-17
# オーバーサンプリングデータのプログレッシブサブサンプリング -- 定量的MRIへの応用

Progressive Subsampling for Oversampled Data -- Application to Quantitative MRI ( http://arxiv.org/abs/2203.09268v1 )

ライセンス: Link先を確認
Stefano B. Blumberg and Hongxiang Lin and Francesco Grussu and Yukun Zhou and Matteo Figini and Daniel C. Alexander(参考訳) ProSUB: Progressive SUBsamplingは,情報損失を最小限に抑えたオーバーサンプリングデータセット(マルチチャネル3D画像など)をサブサンプリングする,ディープラーニングベースの自動化手法である。 我々は、MICCAI MUlti-DIffusion (MUDI) 定量MRI計測サンプリング・再構成チャレンジに勝利したが、難しい決定境界をサブサンプリングすることで、ディープラーニングトレーニング不安定性に悩まされている。 PROSUBは、再帰的特徴除去(RFE)のパラダイムを使用し、ディープラーニングトレーニング中の測定を段階的にサブサンプル化し、最適化の安定性を向上させる。 PROSUBはまた、ニューラルネットワークサーチ(NAS)パラダイムを統合し、ネットワークアーキテクチャのハイパーパラメータがサブサンプリングプロセスに応答できるようにする。 ProSUB はMUDI MICCAI チャレンジの勝者より優れており,MUDI チャレンジの18% MSE の改善と下流プロセスの質的改善が臨床応用に有用である。 また、NASを組み込むことの利点を示し、PROSUBの成分の影響を分析した。 提案手法はMRIによる選択再構成以外の問題にも一般化するので, https://github.com/s bb-gh/PROSUB

We present PROSUB: PROgressive SUBsampling, a deep learning based, automated methodology that subsamples an oversampled data set (e.g. multi-channeled 3D images) with minimal loss of information. We build upon a recent dual-network approach that won the MICCAI MUlti-DIffusion (MUDI) quantitative MRI measurement sampling-reconstruct ion challenge, but suffers from deep learning training instability, by subsampling with a hard decision boundary. PROSUB uses the paradigm of recursive feature elimination (RFE) and progressively subsamples measurements during deep learning training, improving optimization stability. PROSUB also integrates a neural architecture search (NAS) paradigm, allowing the network architecture hyperparameters to respond to the subsampling process. We show PROSUB outperforms the winner of the MUDI MICCAI challenge, producing large improvements >18% MSE on the MUDI challenge sub-tasks and qualitative improvements on downstream processes useful for clinical applications. We also show the benefits of incorporating NAS and analyze the effect of PROSUB's components. As our method generalizes to other problems beyond MRI measurement selection-reconstruc tion, our code is https://github.com/s bb-gh/PROSUB
翻訳日:2022-03-18 14:07:49 公開日:2022-03-17
# pretr:時空間非自己回帰軌道予測トランスフォーマ

PreTR: Spatio-Temporal Non-Autoregressive Trajectory Prediction Transformer ( http://arxiv.org/abs/2203.09293v1 )

ライセンス: Link先を確認
Lina Achaji, Thierno Barry, Thibault Fouqueray, Julien Moreau, Francois Aioun, Francois Charpillet(参考訳) 現在、私たちのモビリティシステムは、道路安全を改善するためのインテリジェントな車両の時代へと進化しています。 その脆弱性のため、歩行者はこれらの開発から最も恩恵を受けるであろうユーザーである。 しかし、軌道を予測することは最も難しい問題の一つだ。 実際、正確な予測には複雑なマルチエージェント相互作用を十分に理解する必要がある。 これらの相互作用によって引き起こされる空間的・時間的パターンを学習することは、多くの研究者が取り組んでいる競争的かつオープンな問題である。 本稿では,因子化時空間注意モジュールを用いて,マルチエージェントシーンから特徴を抽出する予測トランスフォーマ(pretr)モデルを提案する。 これは、経験的により良い結果を持つ以前の研究されたモデルよりも計算の必要性が低いことを示している。 さらに, 従来の動作予測では, 接地構造ではなく, モデル予測サンプルに条件付けされた将来のシーケンスを生成することで生じる露光バイアス問題に悩まされていた。 提案手法を超越するため,我々はエンコーダ・デコーダトランスフォーマネットワークを用いて,学習対象クエリの集合を並列にデコードする。 この非自己回帰的解は反復条件付けの必要を回避し、学習時間と試験時間を確実に減少させる。 ETH/UCYデータセットを用いて,歩行者軌跡予測のためのベンチマークを行った。 最後に、軌道予測タスクを非回帰タスクとしてよりよく解くことができることを示すことにより、並列復号手法の使用を正当化する。

Nowadays, our mobility systems are evolving into the era of intelligent vehicles that aim to improve road safety. Due to their vulnerability, pedestrians are the users who will benefit the most from these developments. However, predicting their trajectory is one of the most challenging concerns. Indeed, accurate prediction requires a good understanding of multi-agent interactions that can be complex. Learning the underlying spatial and temporal patterns caused by these interactions is even more of a competitive and open problem that many researchers are tackling. In this paper, we introduce a model called PRediction Transformer (PReTR) that extracts features from the multi-agent scenes by employing a factorized spatio-temporal attention module. It shows less computational needs than previously studied models with empirically better results. Besides, previous works in motion prediction suffer from the exposure bias problem caused by generating future sequences conditioned on model prediction samples rather than ground-truth samples. In order to go beyond the proposed solutions, we leverage encoder-decoder Transformer networks for parallel decoding a set of learned object queries. This non-autoregressive solution avoids the need for iterative conditioning and arguably decreases training and testing computational time. We evaluate our model on the ETH/UCY datasets, a publicly available benchmark for pedestrian trajectory prediction. Finally, we justify our usage of the parallel decoding technique by showing that the trajectory prediction task can be better solved as a non-autoregressive task.
翻訳日:2022-03-18 14:07:25 公開日:2022-03-17
# 奥行き可変オートエンコーダによる画像超解像

Image Super-Resolution With Deep Variational Autoencoders ( http://arxiv.org/abs/2203.09445v1 )

ライセンス: Link先を確認
Darius Chira, Ilian Haralampiev, Ole Winther, Andrea Dittadi, Valentin Li\'evin(参考訳) 画像超解像(SR)技術を用いて低分解能画像から高分解能画像を生成する。 これまで、自己回帰モデルやGAN(Generative Adversarial Networks)のような深層生成モデルは、高解像度画像のモデリングに有効であることが証明されてきた。 可変オートエンコーダ(VAE)をベースとしたモデルは、高画質な生成性能でしばしば批判されてきたが、VDVAE(非常に深いVAE)のような新しい進歩により、深いVAEが高解像度画像生成のための最先端のモデルを上回る可能性があるという強い証拠がある。 本稿では,VDVAE-SRについて紹介する。VDVAEは,最新の深部VAE手法を利用して,事前訓練されたVDVAEの転送学習を用いて画像超解像を改善することを目的とした新しいモデルである。 定性的および定量的評価により,提案手法は他の最先端手法と競合することを示す。

Image super-resolution (SR) techniques are used to generate a high-resolution image from a low-resolution image. Until now, deep generative models such as autoregressive models and Generative Adversarial Networks (GANs) have proven to be effective at modelling high-resolution images. Models based on Variational Autoencoders (VAEs) have often been criticized for their feeble generative performance, but with new advancements such as VDVAE (very deep VAE), there is now strong evidence that deep VAEs have the potential to outperform current state-of-the-art models for high-resolution image generation. In this paper, we introduce VDVAE-SR, a new model that aims to exploit the most recent deep VAE methodologies to improve upon image super-resolution using transfer learning on pretrained VDVAEs. Through qualitative and quantitative evaluations, we show that the proposed model is competitive with other state-of-the-art methods.
翻訳日:2022-03-18 14:07:05 公開日:2022-03-17
# Covid19 再現数:ブロックワイズ近位モンテカルロサンプリングによる信頼性インターバル

Covid19 Reproduction Number: Credibility Intervals by Blockwise Proximal Monte Carlo Samplers ( http://arxiv.org/abs/2203.09142v1 )

ライセンス: Link先を確認
Gersende Fort (IMT), Barbara Pascal (CRIStAL), Patrice Abry (Phys-ENS), Nelly Pustelnik (Phys-ENS)(参考訳) コビッド19のパンデミックのモニタリングは、かなりの研究努力を受けた重要な社会的利益となっている。 特定の領域におけるパンデミックの強度は、その再生数によって効率よく測定され、毎日の新規感染の発生率を定量化する。 近年,非平滑関数最小化を用いた逆問題定式化法を用いて,再生数の時間発展の推定を行った。 Covid19データの限られた品質(外数、欠落数)に対して堅牢に設計されているが、信頼性間隔に基づく推定を出力する能力は欠如している。 疫学者による実際のパンデミックモニタリングにおいて,本研究はモンテカルロサンプリングを用いて克服することを目的としている。 ベイズ的枠組みへの関数の解釈の後、いくつかのサンプリングスキームは、結果として得られる後方分布の非滑らかな性質を調整するために調整される。 考案されたアルゴリズムの独創性は、ランゲヴィン・モンテカルロサンプリングスキームとプロキシ作用素を組み合わせることに由来する。 再生数推定と分数カウントのための信頼性区間を生成するための新しいアルゴリズムの性能を比較する。 ジョンズ・ホプキンス大学(Johns Hopkins University)による毎日の新規感染者数の評価。 考案されたモニタリングツールの関心は、いくつかの異なる国のCovid19データに示されている。

Monitoring the Covid19 pandemic constitutes a critical societal stake that received considerable research efforts. The intensity of the pandemic on a given territory is efficiently measured by the reproduction number, quantifying the rate of growth of daily new infections. Recently, estimates for the time evolution of the reproduction number were produced using an inverse problem formulation with a nonsmooth functional minimization. While it was designed to be robust to the limited quality of the Covid19 data (outliers, missing counts), the procedure lacks the ability to output credibility interval based estimates. This remains a severe limitation for practical use in actual pandemic monitoring by epidemiologists that the present work aims to overcome by use of Monte Carlo sampling. After interpretation of the functional into a Bayesian framework, several sampling schemes are tailored to adjust the nonsmooth nature of the resulting posterior distribution. The originality of the devised algorithms stems from combining a Langevin Monte Carlo sampling scheme with Proximal operators. Performance of the new algorithms in producing relevant credibility intervals for the reproduction number estimates and denoised counts are compared. Assessment is conducted on real daily new infection counts made available by the Johns Hopkins University. The interest of the devised monitoring tools are illustrated on Covid19 data from several different countries.
翻訳日:2022-03-18 14:06:23 公開日:2022-03-17
# 視覚の局所化は簡単な方法です

Localizing Visual Sounds the Easy Way ( http://arxiv.org/abs/2203.09324v1 )

ライセンス: Link先を確認
Shentong Mo, Pedro Morgado(参考訳) 教師なし音声-視覚的音源定位は,映像中の可視音源の定位化を目的としている。 以前の作品は、おそらく正の(音の)領域に対する高い視聴覚的類似性と、おそらく負の領域に対する低い類似性を求めることが多い。 しかし、音域と非音域の区別は手作業による注釈なしでは困難である。 本研究では,訓練中の正の領域と負の領域の構成に頼らずに,簡易かつ効果的な視覚音像定位手法ez-vslを提案する。 その代わり、任意の場所で他の画像と一致せず、少なくとも関連画像の1つの位置に配置されたオーディオ視覚表現を求めることで、オーディオと視覚空間を整列させる。 また、精度を向上させるために、推論時に新しいオブジェクトガイド型ローカライズ方式を導入する。 我々は,Flickr SoundNet と VGG-Sound Source の2つのベンチマークで最先端のパフォーマンスを実現する。 特に、Flickr SoundNetテストセットのCIoUを76.80%から83.94%に改善し、VGG-Sound Sourceデータセットを34.60%から38.85%に改善しました。 コードはhttps://github.com/s toneMo/EZ-VSLで公開されている。

Unsupervised audio-visual source localization aims at localizing visible sound sources in a video without relying on ground-truth localization for training. Previous works often seek high audio-visual similarities for likely positive (sounding) regions and low similarities for likely negative regions. However, accurately distinguishing between sounding and non-sounding regions is challenging without manual annotations. In this work, we propose a simple yet effective approach for Easy Visual Sound Localization, namely EZ-VSL, without relying on the construction of positive and/or negative regions during training. Instead, we align audio and visual spaces by seeking audio-visual representations that are aligned in, at least, one location of the associated image, while not matching other images, at any location. We also introduce a novel object guided localization scheme at inference time for improved precision. Our simple and effective framework achieves state-of-the-art performance on two popular benchmarks, Flickr SoundNet and VGG-Sound Source. In particular, we improve the CIoU of the Flickr SoundNet test set from 76.80% to 83.94%, and on the VGG-Sound Source dataset from 34.60% to 38.85%. The code is available at https://github.com/s toneMo/EZ-VSL.
翻訳日:2022-03-18 14:06:01 公開日:2022-03-17
# カーネル回帰の次元化とワッサースタイン安定性

Dimensionality Reduction and Wasserstein Stability for Kernel Regression ( http://arxiv.org/abs/2203.09347v1 )

ライセンス: Link先を確認
Stephan Eckstein, Armin Iske, Mathias Trabs(参考訳) 高次元回帰(high-dimensional regression)フレームワークでは,まず入力変数の次元を減少させ,次に入力変数を減少させて出力変数を予測するナイーブな2ステップ手順の結果について検討する。 具体的には、主成分分析(PCA)とカーネル回帰を組み合わせる。 結果として生じる回帰誤差を分析するために、ワッサースタイン距離に関する核回帰の新しい安定性結果が導出される。 これにより、摂動入力データがカーネル機能に適合するときに発生するバウンドエラーを可能にする。 安定度を主成分分析とカーネル回帰の両方の文献からの既知の推定値と組み合わせて、2段階の手順の収束率を求める。

In a high-dimensional regression framework, we study consequences of the naive two-step procedure where first the dimension of the input variables is reduced and second, the reduced input variables are used to predict the output variable. More specifically we combine principal component analysis (PCA) with kernel regression. In order to analyze the resulting regression errors, a novel stability result of kernel regression with respect to the Wasserstein distance is derived. This allows us to bound errors that occur when perturbed input data is used to fit a kernel function. We combine the stability result with known estimates from the literature on both principal component analysis and kernel regression to obtain convergence rates for the two-step procedure.
翻訳日:2022-03-18 14:05:39 公開日:2022-03-17
# 三角トランスファー:三角機械翻訳のためのピボットの凍結

Triangular Transfer: Freezing the Pivot for Triangular Machine Translation ( http://arxiv.org/abs/2203.09027v1 )

ライセンス: Link先を確認
Meng Zhang, Liangyou Li, Qun Liu(参考訳) 三角形機械翻訳は低リソース機械翻訳の特殊な例であり、言語対が限られた並列データを持つが、両方の言語はピボット言語と豊富な並列データを持つ。 当然、三角機械翻訳の鍵は、このような補助データの活用の成功である。 本稿では,あらゆる種類の補助データを活用したトランスファーラーニング方式を提案する。 補助的なソース・ピボットとピボット・ターゲットの翻訳モデルを訓練する際、あらかじめ訓練された言語モデルでピボット側のパラメータを初期化し、凍結して両方の翻訳モデルを同じピボット言語空間で動作させ、ソース・ターゲットの翻訳モデルにスムーズに転送できるようにします。 実験により、我々のアプローチは以前の手法より優れていることが示された。

Triangular machine translation is a special case of low-resource machine translation where the language pair of interest has limited parallel data, but both languages have abundant parallel data with a pivot language. Naturally, the key to triangular machine translation is the successful exploitation of such auxiliary data. In this work, we propose a transfer-learning-ba sed approach that utilizes all types of auxiliary data. As we train auxiliary source-pivot and pivot-target translation models, we initialize some parameters of the pivot side with a pre-trained language model and freeze them to encourage both translation models to work in the same pivot language space, so that they can be smoothly transferred to the source-target translation model. Experiments show that our approach can outperform previous ones.
翻訳日:2022-03-18 14:03:43 公開日:2022-03-17
# ask to understand: マルチホップ質問応答のための質問生成

Ask to Understand: Question Generation for Multi-hop Question Answering ( http://arxiv.org/abs/2203.09073v1 )

ライセンス: Link先を確認
Jiawei Li, Mucheng Ren, Yang Gao, Yizhe Yang(参考訳) マルチホップ質問回答 (Multi-hop Question Answering, QA) は、複数の文書から散乱した手がかりを見つけ、推論することで複雑な質問に答えることを要求する。 現在、グラフネットワーク(GN)と質問分解(QD)は2つの一般的なアプローチである。 前者は「ブラックボックス」推論プロセスを使用して、エンティティと文間の潜在的な関係をキャプチャし、優れたパフォーマンスを達成する。 同時に、後者は、複数のホップ質問を単純なシングルホップサブクエストに分解することで、明確な論理経路を提供する。 本稿では,質問生成(QG)の観点から,マルチホップQAを補完する新しい手法を提案する。 具体的には、古典的なQAモジュールに基づいてエンドツーエンドのQGモジュールを慎重に設計し、本質的な論理的サブクエストを問うことによって、モデルがコンテキストを理解するのに役立ち、QDベースの手法から解釈可能性を引き継ぎ、優れた性能を示す。 ホットポットQAデータセットを用いた実験により,提案したQGモジュールの有効性,人間による評価,解釈可能性の定量化,およびQGモジュールがQD法よりも精度,一貫性,多様性の面で優れたサブクエストを生成できることを示す。

Multi-hop Question Answering (QA) requires the machine to answer complex questions by finding scattering clues and reasoning from multiple documents. Graph Network (GN) and Question Decomposition (QD) are two common approaches at present. The former uses the "black-box" reasoning process to capture the potential relationship between entities and sentences, thus achieving good performance. At the same time, the latter provides a clear reasoning logical route by decomposing multi-hop questions into simple single-hop sub-questions. In this paper, we propose a novel method to complete multi-hop QA from the perspective of Question Generation (QG). Specifically, we carefully design an end-to-end QG module on the basis of a classical QA module, which could help the model understand the context by asking inherently logical sub-questions, thus inheriting interpretability from the QD-based method and showing superior performance. Experiments on the HotpotQA dataset demonstrate that the effectiveness of our proposed QG module, human evaluation further clarifies its interpretability quantitatively, and thorough analysis shows that the QG module could generate better sub-questions than QD methods in terms of fluency, consistency, and diversity.
翻訳日:2022-03-18 14:03:28 公開日:2022-03-17
# (参考訳) AutoSDF:3Dコンプリート・レコンストラクション・ジェネレーションのための形状優先 [全文訳有]

AutoSDF: Shape Priors for 3D Completion, Reconstruction and Generation ( http://arxiv.org/abs/2203.09516v1 )

ライセンス: CC BY-SA 4.0
Paritosh Mittal, Yen-Chi Cheng, Maneesh Singh and Shubham Tulsiani(参考訳) 強力な事前処理によって、不十分な情報で推論を実行できます。 本稿では, 形状完了, 復元, 生成などの多モード3次元課題を解決するために, 3次元形状の自動回帰前処理を提案する。 3次元形状上の分布を、離散化、低次元、シンボリックグリッドのような3次元形状の潜在表現上の非系列自己回帰分布としてモデル化する。 これにより,空間的に固定された問合せ位置の任意の集合からの情報に基づく3次元形状上の分布を表現できるため,任意の設定で形状完了を行うことができる(例えば,背脚の視点のみを付与した完全な椅子を生成する)。 また,学習した自己回帰前処理を,単一視点再構成や言語ベース生成といった条件付きタスクに活用できることを示す。 これは、最小ペアのデータで訓練された軽量モデルによって近似できるタスク固有なナイーブ条件を学習することで達成される。 提案手法の有効性を定量評価と定性評価の両方を用いて検証し,提案手法が個々のタスクに対して訓練された専門的最先端手法よりも優れていることを示す。 コードとビデオビジュアライゼーションを備えたプロジェクトページはhttps://yccyenchiche ng.github.io/AutoSDF /で見ることができる。

Powerful priors allow us to perform inference with insufficient information. In this paper, we propose an autoregressive prior for 3D shapes to solve multimodal 3D tasks such as shape completion, reconstruction, and generation. We model the distribution over 3D shapes as a non-sequential autoregressive distribution over a discretized, low-dimensional, symbolic grid-like latent representation of 3D shapes. This enables us to represent distributions over 3D shapes conditioned on information from an arbitrary set of spatially anchored query locations and thus perform shape completion in such arbitrary settings (e.g., generating a complete chair given only a view of the back leg). We also show that the learned autoregressive prior can be leveraged for conditional tasks such as single-view reconstruction and language-based generation. This is achieved by learning task-specific naive conditionals which can be approximated by light-weight models trained on minimal paired data. We validate the effectiveness of the proposed method using both quantitative and qualitative evaluation and show that the proposed method outperforms the specialized state-of-the-art methods trained for individual tasks. The project page with code and video visualizations can be found at https://yccyenchiche ng.github.io/AutoSDF /.
翻訳日:2022-03-18 14:01:46 公開日:2022-03-17
# 確率的ニューラルネットワークを用いた不確かさ推定の落とし穴について

On the Pitfalls of Heteroscedastic Uncertainty Estimation with Probabilistic Neural Networks ( http://arxiv.org/abs/2203.09168v1 )

ライセンス: Link先を確認
Maximilian Seitzer, Arash Tavakoli, Dimitrije Antic, Georg Martius(参考訳) アレオータ的不確かさを捉えることは、多くの機械学習システムにおいて重要な部分である。 深層学習において、この目的への一般的なアプローチは、観測されたデータの下での確率関数の対数を最大化することにより、ヘテロシドスティックなガウス分布のパラメータを推定するためにニューラルネットワークを訓練することである。 本研究では,このアプローチを検証し,勾配に基づくオプティマイザと連携して,ログライクティビティの利用に伴う潜在的な危険性を明らかにする。 まず、このアプローチが非常に貧弱だが安定したパラメータ推定にどのようにつながるかを示す合成例を示す。 第2に,被疑者がログライクな損失であることと,この問題を悪化させる条件を特定する。 第3に、損失に対する各データポイントの貢献度を$\beta$-exponentiate d variance estimationによって重み付けする、$\beta$-nllと呼ばれる別の定式化を提案する。 適切な$\beta$を使用することで、例示例で問題を大幅に軽減できることを示します。 第4に,本手法を領域やタスクの範囲で評価し,予測的RMSEとログライクな基準の両方において,大幅な改善を実現し,ハイパーパラメータに関してより堅牢に実行することを示す。

Capturing aleatoric uncertainty is a critical part of many machine learning systems. In deep learning, a common approach to this end is to train a neural network to estimate the parameters of a heteroscedastic Gaussian distribution by maximizing the logarithm of the likelihood function under the observed data. In this work, we examine this approach and identify potential hazards associated with the use of log-likelihood in conjunction with gradient-based optimizers. First, we present a synthetic example illustrating how this approach can lead to very poor but stable parameter estimates. Second, we identify the culprit to be the log-likelihood loss, along with certain conditions that exacerbate the issue. Third, we present an alternative formulation, termed $\beta$-NLL, in which each data point's contribution to the loss is weighted by the $\beta$-exponentiate d variance estimate. We show that using an appropriate $\beta$ largely mitigates the issue in our illustrative example. Fourth, we evaluate this approach on a range of domains and tasks and show that it achieves considerable improvements and performs more robustly concerning hyperparameters, both in predictive RMSE and log-likelihood criteria.
翻訳日:2022-03-18 13:45:48 公開日:2022-03-17
# 決定論的MDPのための最適PAC強化学習

Near Instance-Optimal PAC Reinforcement Learning for Deterministic MDPs ( http://arxiv.org/abs/2203.09251v1 )

ライセンス: Link先を確認
Andrea Tirinzoni, Aymen Al-Marjani, Emilie Kaufmann(参考訳) おそらく略正(PAC)強化学習(RL)では、エージェントは$\epsilon$-optimal policy with probability $1-\delta$を識別する必要がある。 この問題にはミニマックス最適アルゴリズムが存在するが、そのインスタンス依存の複雑さは、エピソード的マルコフ決定過程(MDPs)において解明されている。 本稿では, 有限状態および作用空間を持つ決定論的エピソードMDPにおけるPAC RLのサンプル複雑性に対する, 上界と下界の整合性について述べる。 特に、我々の境界は、決定論的リターンギャップ(deterministic return gap)と呼ばれる状態-作用対に対する準最適ギャップという新しい概念を特徴としている。 インスタンス依存の下位境界は線形プログラムとして記述されるが、アルゴリズムは非常に単純であり、学習中にそのような最適化問題を解決する必要はない。 彼らの設計と分析には、最小フローや最大カットといったグラフ理論的な概念を含む、新しいアイデアが採用されています。

In probably approximately correct (PAC) reinforcement learning (RL), an agent is required to identify an $\epsilon$-optimal policy with probability $1-\delta$. While minimax optimal algorithms exist for this problem, its instance-dependent complexity remains elusive in episodic Markov decision processes (MDPs). In this paper, we propose the first (nearly) matching upper and lower bounds on the sample complexity of PAC RL in deterministic episodic MDPs with finite state and action spaces. In particular, our bounds feature a new notion of sub-optimality gap for state-action pairs that we call the deterministic return gap. While our instance-dependent lower bound is written as a linear program, our algorithms are very simple and do not require solving such an optimization problem during learning. Their design and analyses employ novel ideas, including graph-theoretical concepts such as minimum flows and maximum cuts, which we believe to shed new light on this problem.
翻訳日:2022-03-18 13:45:26 公開日:2022-03-17
# 自転車シェアリングと公共交通のクロスモーダル需要予測のためのトランスファーラーニング

Transfer learning for cross-modal demand prediction of bike-share and public transit ( http://arxiv.org/abs/2203.09279v1 )

ライセンス: Link先を確認
Mingzhuang Hua, Francisco Camara Pereira, Yu Jiang, Xuewu Chen(参考訳) 都市交通システムは複数の輸送モードの組み合わせであり、これらのモードにまたがる相互依存が存在する。 つまり、1つのモードが別のモードからの需要を受信したり、別のモードの需要を作成したりする可能性があるため、ネットワーク全体の一般的な需要フローパターンによる異なる需要時系列間の自然な相関は言及されない。 モビリティ・アズ・ア・サービスによって、クロスモーダルなリップル効果がより普及することが期待できる。 したがって、モード間で需要データを伝播させることで、より優れた需要予測が得られる。 そこで本研究では,多種多様な機械学習モデルと移動学習戦略を探索し,需要予測を行う。 また, 自転車シェア, メトロ, タクシーの走行データを駅レベルの乗客フローとして処理し, 南京, シカゴの大規模ケーススタディにおいて, 提案手法を検証した。 その結果, 伝達学習による予測モデルは, 単調な予測モデルよりも優れていることが示唆された。 さらに, 積層長短期記憶モデルは, 特にクロスモーダル需要予測において良好に機能する。 これらの結果から,既存ベンチマークの予測精度の向上を検証し,複数の都市におけるクロスモーダル需要予測の優れた伝達性を示す。

The urban transportation system is a combination of multiple transport modes, and the interdependencies across those modes exist. This means that the travel demand across different travel modes could be correlated as one mode may receive demand from or create demand for another mode, not to mention natural correlations between different demand time series due to general demand flow patterns across the network. It is expectable that cross-modal ripple effects become more prevalent, with Mobility as a Service. Therefore, by propagating demand data across modes, a better demand prediction could be obtained. To this end, this study explores various machine learning models and transfer learning strategies for cross-modal demand prediction. The trip data of bike-share, metro, and taxi are processed as the station-level passenger flows, and then the proposed prediction method is tested in the large-scale case studies of Nanjing and Chicago. The results suggest that prediction models with transfer learning perform better than unimodal prediction models. Furthermore, stacked Long Short-Term Memory model performs particularly well in cross-modal demand prediction. These results verify our combined method's forecasting improvement over existing benchmarks and demonstrate the good transferability for cross-modal demand prediction in multiple cities.
翻訳日:2022-03-18 13:45:11 公開日:2022-03-17
# ディープニューラルネットワークの最後に学習可能な分類器が必要なのでしょうか?

Do We Really Need a Learnable Classifier at the End of Deep Neural Network? ( http://arxiv.org/abs/2203.09081v1 )

ライセンス: Link先を確認
Yibo Yang, Liang Xie, Shixiang Chen, Xiangtai Li, Zhouchen Lin, Dacheng Tao(参考訳) 分類のための現代のディープニューラルネットワークは通常、表現のためのバックボーンと、各クラスのロジットを出力する線形分類器を共同で学習する。 最近の研究では、特徴のクラス内平均と分類器ベクトルが、バランスの取れたデータセットのトレーニングの終端フェーズにおいて、単純な等角的タイトフレーム(ETF)の頂点に収束する、神経崩壊と呼ばれる現象が示されている。 ETF幾何学構造は、分類器内のすべてのクラスの対角を極大に分離するので、疑問を提起するのは自然である。 本稿では,ETFとしてランダムに初期化され,訓練中に固定された分類器を用いてニューラルネットワークを学習する可能性について検討する。 階層化モデルに基づく解析研究は,固定ETF分類器を用いた特徴学習が,データセットがクラス間で不均衡である場合でも,自然に神経崩壊状態につながることを示す。 さらに、この場合、クロスエントロピー(CE)損失は不要であり、同じ大域的最適性を共有するがより正確な勾配とより良い収束性を持つ単純な2乗損失に置き換えることができることを示す。 実験結果から,本手法はバランスの取れたデータセットのイメージ分類において類似した性能を達成でき,長期的・きめ細かな分類タスクにおいて大きな改善をもたらすことが示された。

Modern deep neural networks for classification usually jointly learn a backbone for representation and a linear classifier to output the logit of each class. A recent study has shown a phenomenon called neural collapse that the within-class means of features and the classifier vectors converge to the vertices of a simplex equiangular tight frame (ETF) at the terminal phase of training on a balanced dataset. Since the ETF geometric structure maximally separates the pair-wise angles of all classes in the classifier, it is natural to raise the question, why do we spend an effort to learn a classifier when we know its optimal geometric structure? In this paper, we study the potential of learning a neural network for classification with the classifier randomly initialized as an ETF and fixed during training. Our analytical work based on the layer-peeled model indicates that the feature learning with a fixed ETF classifier naturally leads to the neural collapse state even when the dataset is imbalanced among classes. We further show that in this case the cross entropy (CE) loss is not necessary and can be replaced by a simple squared loss that shares the same global optimality but enjoys a more accurate gradient and better convergence property. Our experimental results show that our method is able to achieve similar performances on image classification for balanced datasets, and bring significant improvements in the long-tailed and fine-grained classification tasks.
翻訳日:2022-03-18 13:44:25 公開日:2022-03-17
# MotionAug:人間の動作予測のための物理的補正による強化

MotionAug: Augmentation with Physical Correction for Human Motion Prediction ( http://arxiv.org/abs/2203.09116v1 )

ライセンス: Link先を確認
Takahiro Maeda and Norimichi Ukita(参考訳) 本稿では,多様性と運動補正を奨励する運動合成を組み込んだ運動データ拡張方式を提案する。 この運動合成は改良型変分オートエンコーダ (vae) と逆キネマティックス (ik) から構成される。 このvaeにおいて,本提案手法では,訓練動作データ不足であっても様々な有効動作を生成する。 IKに基づく動作合成法により,半自動で様々な動きを生成できる。 これらの2つのスキームは合成された動きに非現実的なアーティファクトを生成するので、我々の運動補正はそれらを修正します。 この運動補正スキームは、物理シミュレーションによる模倣学習とその後の運動偏りを含む。 この模倣学習のために,訓練過程を著しく加速するPD残留力を提案する。 さらに, 模倣学習によって引き起こされる運動バイアスをオフセットし, 強化の効果を最大化する。 その結果,本手法は,ニューラルネットワークとグラフ畳み込みネットワークに基づく人間の動き予測モデルの両方において,従来のノイズベース動作拡張手法を大きなマージンで上回っている。 コードは {\rm \url{https://github.com/m eaten/motionaug}} で入手できる。

This paper presents a motion data augmentation scheme incorporating motion synthesis encouraging diversity and motion correction imposing physical plausibility. This motion synthesis consists of our modified Variational AutoEncoder (VAE) and Inverse Kinematics (IK). In this VAE, our proposed sampling-near-sample s method generates various valid motions even with insufficient training motion data. Our IK-based motion synthesis method allows us to generate a variety of motions semi-automatically. Since these two schemes generate unrealistic artifacts in the synthesized motions, our motion correction rectifies them. This motion correction scheme consists of imitation learning with physics simulation and subsequent motion debiasing. For this imitation learning, we propose the PD-residual force that significantly accelerates the training process. Furthermore, our motion debiasing successfully offsets the motion bias induced by imitation learning to maximize the effect of augmentation. As a result, our method outperforms previous noise-based motion augmentation methods by a large margin on both Recurrent Neural Network-based and Graph Convolutional Network-based human motion prediction models. The code is available at {\rm \url{https://github.com/m eaten/MotionAug}}.
翻訳日:2022-03-18 13:44:00 公開日:2022-03-17
# オブジェクトベース多元入力による対象逆例の転送性の向上

Improving the Transferability of Targeted Adversarial Examples through Object-Based Diverse Input ( http://arxiv.org/abs/2203.09123v1 )

ライセンス: Link先を確認
Junyoung Byun, Seungju Cho, Myung-Joon Kwon, Hee-Seon Kim, Changick Kim(参考訳) 敵の例の転送性はブラックボックスモデルの欺きを可能にし、転送ベースの標的攻撃は実用的な適用可能性のために多くの関心を集めている。 転送成功率を最大化するために、逆の例はソースモデルへの過剰適合を避けるべきである。 しかし、先行研究は、入力の多様性を制限するリサイズのような単純な画像変換を利用する。 そこで本稿では,3dオブジェクトに逆像を描画し,レンダリング画像を対象クラスに分類するオブジェクトベース多様入力(odi)手法を提案する。 私たちのモチベーションは、3Dオブジェクトに印刷された画像に対する人間の優れた認識から来ています。 画像が十分にクリアであれば、人間は様々な視聴条件で画像の内容を認識することができる。 同様に、逆の例がモデルに対するターゲットクラスに似ている場合、モデルは3dオブジェクトのレンダリングされたイメージをターゲットクラスとして分類する必要がある。 ODI法は、複数のソースオブジェクトのアンサンブルを活用し、視聴条件をランダム化することにより、入力を効果的に多様化する。 ImageNet-Compatible データセットの実験結果では,攻撃成功率の平均は,最先端の手法と比較して28.3%から47.0%に向上した。 また,顔認証タスクにおける逆例に対するODI法の適用性とその性能改善について述べる。 私たちのコードはhttps://github.com/d reamflake/odiで利用可能です。

The transferability of adversarial examples allows the deception on black-box models, and transfer-based targeted attacks have attracted a lot of interest due to their practical applicability. To maximize the transfer success rate, adversarial examples should avoid overfitting to the source model, and image augmentation is one of the primary approaches for this. However, prior works utilize simple image transformations such as resizing, which limits input diversity. To tackle this limitation, we propose the object-based diverse input (ODI) method that draws an adversarial image on a 3D object and induces the rendered image to be classified as the target class. Our motivation comes from the humans' superior perception of an image printed on a 3D object. If the image is clear enough, humans can recognize the image content in a variety of viewing conditions. Likewise, if an adversarial example looks like the target class to the model, the model should also classify the rendered image of the 3D object as the target class. The ODI method effectively diversifies the input by leveraging an ensemble of multiple source objects and randomizing viewing conditions. In our experimental results on the ImageNet-Compatible dataset, this method boosts the average targeted attack success rate from 28.3% to 47.0% compared to the state-of-the-art methods. We also demonstrate the applicability of the ODI method to adversarial examples on the face verification task and its superior performance improvement. Our code is available at https://github.com/d reamflake/ODI.
翻訳日:2022-03-18 13:43:43 公開日:2022-03-17
# 非IIDフェデレーション学習のためのデータフリー知識蒸留による微調整グローバルモデル

Fine-tuning Global Model via Data-Free Knowledge Distillation for Non-IID Federated Learning ( http://arxiv.org/abs/2203.09249v1 )

ライセンス: Link先を確認
Lin Zhang, Li Shen, Liang Ding, Dacheng Tao, Ling-Yu Duan(参考訳) フェデレートラーニング(Federated Learning, FL)は、プライバシ制約下での分散学習パラダイムである。 データの不均一性はFLの主な課題の1つであり、結果として収束が遅く、性能が劣化する。 既存のアプローチのほとんどは、クライアントのローカルモデル更新を制限し、直接グローバルモデルアグリゲーションによるパフォーマンス低下を無視して、不均一性に対処するだけである。 代わりに,直接モデル集約の問題を軽減するために,サーバのグローバルモデル(fedftg)を微調整するデータフリー知識蒸留法を提案する。 具体的には、FedFTGはローカルモデルの入力空間をジェネレータを介して探索し、ローカルモデルからの知識をグローバルモデルに転送する。 さらに, トレーニングを通して効果的な知識蒸留を実現するため, ハードサンプルマイニング手法を提案する。 さらに,知識の最大利用を導出するために,カスタマイズされたラベルサンプリングとクラスレベルのアンサンブルを開発し,クライアント間の分布の不一致を暗黙的に緩和する。 我々のFedFTGは最先端(SOTA)のFLアルゴリズムよりも優れており、FedAvg、FedProx、FedDyn、SCAFFOLDの強化のための強力なプラグインとして機能する。

Federated Learning (FL) is an emerging distributed learning paradigm under privacy constraint. Data heterogeneity is one of the main challenges in FL, which results in slow convergence and degraded performance. Most existing approaches only tackle the heterogeneity challenge by restricting the local model update in client, ignoring the performance drop caused by direct global model aggregation. Instead, we propose a data-free knowledge distillation method to fine-tune the global model in the server (FedFTG), which relieves the issue of direct model aggregation. Concretely, FedFTG explores the input space of local models through a generator, and uses it to transfer the knowledge from local models to the global model. Besides, we propose a hard sample mining scheme to achieve effective knowledge distillation throughout the training. In addition, we develop customized label sampling and class-level ensemble to derive maximum utilization of knowledge, which implicitly mitigates the distribution discrepancy across clients. Extensive experiments show that our FedFTG significantly outperforms the state-of-the-art (SOTA) FL algorithms and can serve as a strong plugin for enhancing FedAvg, FedProx, FedDyn, and SCAFFOLD.
翻訳日:2022-03-18 13:42:26 公開日:2022-03-17
# transframer: 生成モデルを用いた任意フレーム予測

Transframer: Arbitrary Frame Prediction with Generative Models ( http://arxiv.org/abs/2203.09494v1 )

ライセンス: Link先を確認
Charlie Nash, Jo\~ao Carreira, Jacob Walker, Iain Barr, Andrew Jaegle, Mateusz Malinowski, Peter Battaglia(参考訳) 本稿では,確率的フレーム予測に基づく画像モデリングと視覚タスクのための汎用フレームワークを提案する。 提案手法は,画像分割から新しいビュー合成,ビデオ補間に至るまで,幅広いタスクを統一する。 このフレームワークと、u-netとtransformerコンポーネントを使用してアノテーション付きコンテキストフレームを条件付けし、スパースで圧縮された画像特徴のシーケンスを出力するtransframerというアーキテクチャを組み合わせる。 Transframerは様々なビデオ生成ベンチマークの最先端技術であり、数ショットビュー合成において最強のモデルと競合し、明確な幾何学的情報なしで単一の画像からコヒーレントな30秒のビデオを生成することができる。 単一のジェネラリストトランスフレームは、タスク固有のアーキテクチャコンポーネントなしで意味セグメンテーション、画像分類、光フロー予測を含む8つのタスクで有望な結果を同時に生成し、確率的イメージモデルを用いてマルチタスクのコンピュータビジョンに取り組むことができることを実証する。 我々の手法は、注釈付き画像フォーマットデータの条件構造を学習する必要がある広範囲のアプリケーションに原則として適用することができる。

We present a general-purpose framework for image modelling and vision tasks based on probabilistic frame prediction. Our approach unifies a broad range of tasks, from image segmentation, to novel view synthesis and video interpolation. We pair this framework with an architecture we term Transframer, which uses U-Net and Transformer components to condition on annotated context frames, and outputs sequences of sparse, compressed image features. Transframer is the state-of-the-art on a variety of video generation benchmarks, is competitive with the strongest models on few-shot view synthesis, and can generate coherent 30 second videos from a single image without any explicit geometric information. A single generalist Transframer simultaneously produces promising results on 8 tasks, including semantic segmentation, image classification and optical flow prediction with no task-specific architectural components, demonstrating that multi-task computer vision can be tackled using probabilistic image models. Our approach can in principle be applied to a wide range of applications that require learning the conditional structure of annotated image-formatted data.
翻訳日:2022-03-18 13:42:03 公開日:2022-03-17
# 局所的完全連結層を用いた非正規サンプリング画像データ再構成のための新しいエンドツーエンドネットワーク

A Novel End-To-End Network for Reconstruction of Non-Regularly Sampled Image Data Using Locally Fully Connected Layers ( http://arxiv.org/abs/2203.09180v1 )

ライセンス: Link先を確認
Simon Grosche and Fabian Brand and Andr\'e Kaup(参考訳) クォーターサンプリングと3/4サンプリングは、ピクセル数を増やすことなく高解像度画像の取得を可能にする新しいセンサー概念である。 これは、低解像度センサの各画素の非規則被覆部において、各画素のセンサ領域の4分の1または3の4分の1のみが光に敏感である。 適切に設計されたマスクと高品質な再構成アルゴリズムを組み合わせることで、低解像度センサやその後のアップサンプリングよりも高い画質を実現することができる。 後者の場合、超高解像度ネットワーク(VDSR)のような超高解像度アルゴリズムを用いて、画質をさらに向上することができる。 本稿では,非正規サンプリングセンサデータから高解像度画像を再構成する,新しいエンドツーエンドニューラルネットワークを提案する。 このネットワークは、ローカルに完全に接続された再構築ネットワーク(LFCR)と標準VDSRネットワークの結合である。 さらに,新しいニューラルネットワークレイアウトを持つ3/4サンプリングセンサを用いて,Urban100データセットのPSNRの画質を,最先端のアプローチと比較して2.96dB向上させることができる。 VDSRの低解像度センサと比較すると、1.11dBのゲインが得られる。

Quarter sampling and three-quarter sampling are novel sensor concepts that enable the acquisition of higher resolution images without increasing the number of pixels. This is achieved by non-regularly covering parts of each pixel of a low-resolution sensor such that only one quadrant or three quadrants of the sensor area of each pixel is sensitive to light. Combining a properly designed mask and a high-quality reconstruction algorithm, a higher image quality can be achieved than using a low-resolution sensor and subsequent upsampling. For the latter case, the image quality can be further enhanced using super resolution algorithms such as the very deep super resolution network (VDSR). In this paper, we propose a novel end-to-end neural network to reconstruct high resolution images from non-regularly sampled sensor data. The network is a concatenation of a locally fully connected reconstruction network (LFCR) and a standard VDSR network. Altogether, using a three-quarter sampling sensor with our novel neural network layout, the image quality in terms of PSNR for the Urban100 dataset can be increased by 2.96 dB compared to the state-of-the-art approach. Compared to a low-resolution sensor with VDSR, a gain of 1.11 dB is achieved.
翻訳日:2022-03-18 13:41:43 公開日:2022-03-17
# (参考訳) データ効率の高い検出変圧器に向けて [全文訳有]

Towards Data-Efficient Detection Transformers ( http://arxiv.org/abs/2203.09507v1 )

ライセンス: CC BY 4.0
Wen Wang, Jing Zhang, Yang Cao, Yongliang Shen, Dacheng Tao(参考訳) 検出トランスフォーマーは、サンプルリッチCOCOデータセット上での競合性能を達成した。 しかし、そのほとんどが、cityscapesのような小規模データセットのパフォーマンス低下に苦しんでいる。 言い換えれば、検出トランスは一般的にデータハングリーである。 この問題を解決するために、データ効率のRCNN変種から代表DETRへのステップバイステップ移行を通じて、データ効率に影響を与える要因を経験的に分析する。 実験結果から,局所画像領域からのスパース特徴サンプリングが鍵となることが示唆された。 本研究は,既存の検出変換器のデータ・ハングリー問題に対して,キーと値の配列がどのように構成されているかを簡単に変更し,元のモデルに最小限の変更を加えて緩和するものである。 さらに,よりリッチな監視とデータ効率の向上を目的とした,シンプルながら効果的なラベル拡張手法を提案する。 実験により,本手法は異なる検出変換器に容易に適用でき,小型およびサンプルリッチなデータセットの性能を向上させることができることがわかった。 コードは \url{https://github.com/e ncounter 1997/DE-DETRs} で公開される。

Detection Transformers have achieved competitive performance on the sample-rich COCO dataset. However, we show most of them suffer from significant performance drops on small-size datasets, like Cityscapes. In other words, the detection transformers are generally data-hungry. To tackle this problem, we empirically analyze the factors that affect data efficiency, through a step-by-step transition from a data-efficient RCNN variant to the representative DETR. The empirical results suggest that sparse feature sampling from local image areas holds the key. Based on this observation, we alleviate the data-hungry issue of existing detection transformers by simply alternating how key and value sequences are constructed in the cross-attention layer, with minimum modifications to the original models. Besides, we introduce a simple yet effective label augmentation method to provide richer supervision and improve data efficiency. Experiments show that our method can be readily applied to different detection transformers and improve their performance on both small-size and sample-rich datasets. Code will be made publicly available at \url{https://github.com/e ncounter1997/DE-DETR s}.
翻訳日:2022-03-18 13:38:24 公開日:2022-03-17
# グラフ強化学習

Graph Augmentation Learning ( http://arxiv.org/abs/2203.09020v1 )

ライセンス: Link先を確認
Shuo Yu, Huafei Huang, Minh N. Dao, Feng Xia(参考訳) グラフ拡張学習(gal)は、不完全なデータやノイズデータを扱う上で、グラフ学習に優れたソリューションを提供する。 ソーシャルネットワーク分析やトラフィックフロー予測といったグラフベースのアプリケーションに対して,多数のGAL手法が提案されている。 しかし、これらのGAL法の有効性の根本原因はいまだ不明である。 結果として、特定のアプリケーションシナリオに対して最適なグラフ拡張戦略を選択する方法はまだブラックボックスにある。 galの体系的、包括的、実験的に検証されたガイドラインが学者に欠如している。 そこで本研究では,マクロ(graph),メソ(subgraph)およびマイクロ(node/edge)レベルのgal技術について詳細に検討する。 さらに、GALがデータ品質とモデル性能をどのように向上させるかを詳細に説明する。 拡張戦略とグラフ学習モデルの集約機構についても,データ固有のシナリオ,モデル固有のシナリオ,ハイブリッドなシナリオなど,さまざまなアプリケーションシナリオで論じられている。 GALの効率性を示すために,異なる下流タスクにおける異なるGAL戦略の有効性と適応性を実験的に検証した。 最後に、不均一性、時空間力学、スケーラビリティ、一般化など、GALのオープンな問題に関する洞察を共有します。

Graph Augmentation Learning (GAL) provides outstanding solutions for graph learning in handling incomplete data, noise data, etc. Numerous GAL methods have been proposed for graph-based applications such as social network analysis and traffic flow forecasting. However, the underlying reasons for the effectiveness of these GAL methods are still unclear. As a consequence, how to choose optimal graph augmentation strategy for a certain application scenario is still in black box. There is a lack of systematic, comprehensive, and experimentally validated guideline of GAL for scholars. Therefore, in this survey, we in-depth review GAL techniques from macro (graph), meso (subgraph), and micro (node/edge) levels. We further detailedly illustrate how GAL enhance the data quality and the model performance. The aggregation mechanism of augmentation strategies and graph learning models are also discussed by different application scenarios, i.e., data-specific, model-specific, and hybrid scenarios. To better show the outperformance of GAL, we experimentally validate the effectiveness and adaptability of different GAL strategies in different downstream tasks. Finally, we share our insights on several open issues of GAL, including heterogeneity, spatio-temporal dynamics, scalability, and generalization.
翻訳日:2022-03-18 13:15:17 公開日:2022-03-17
# 畳み込みニューラルタンジェントとガウス過程カーネルのスペクトルバイアスについて

On the Spectral Bias of Convolutional Neural Tangent and Gaussian Process Kernels ( http://arxiv.org/abs/2203.09255v1 )

ライセンス: Link先を確認
Amnon Geifman, Meirav Galun, David Jacobs, Ronen Basri(参考訳) 種々の重畳型畳み込みニューラルネットワークの特性について,ガウス過程と神経接核を用いて検討した。 正規化されたマルチチャネル入力とReLUアクティベーションにより、均一な測度を持つこれらのカーネルの固有関数は、異なる画素のチャネル上で定義された球面調和の積によって形成される。 次に、階層的分解可能なカーネルを用いてそれぞれの固有値を有界化する。 固有値は多項式的に崩壊し、減衰率を定量化し、これらのネットワークにおける階層的特徴の合成を反映した導出測度を示す。 本稿では,超パラメータ畳み込みネットワークアーキテクチャを定量的に評価する。

We study the properties of various over-parametrized convolutional neural architectures through their respective Gaussian process and neural tangent kernels. We prove that, with normalized multi-channel input and ReLU activation, the eigenfunctions of these kernels with the uniform measure are formed by products of spherical harmonics, defined over the channels of the different pixels. We next use hierarchical factorizable kernels to bound their respective eigenvalues. We show that the eigenvalues decay polynomially, quantify the rate of decay, and derive measures that reflect the composition of hierarchical features in these networks. Our results provide concrete quantitative characterization of over-parameterized convolutional network architectures.
翻訳日:2022-03-18 13:14:59 公開日:2022-03-17
# 知識グラフ埋め込みモデルを用いた文脈依存異常検出

Context-Dependent Anomaly Detection with Knowledge Graph Embedding Models ( http://arxiv.org/abs/2203.09354v1 )

ライセンス: Link先を確認
Nathan Vaska and Victoria Helus(参考訳) 機械学習モデルの意味理解と文脈認識の増大は、ロバスト性の向上とデータシフトに対する感受性の低減に重要である。 本研究では,異常検出問題に対して文脈認識を利用する。 グラフに基づく異常検出は広く研究されているが、文脈依存異常検出はオープンな問題であり、多くの研究がされていない。 本稿では,コンテキスト依存異常検出問題をリンク予測問題に変換する汎用フレームワークを開発し,この領域の確立した手法を適用することを可能にする。 我々は,知識グラフ埋め込みモデルを用いたフレームワークに基づくシステムを実装し,意味的知識ベースが提供するコンテキストを用いて,アウトリーチを検出する能力を示す。 提案手法は,精度の高いコンテキスト依存型異常を検出できることを示すとともに,現在のオブジェクト検出装置が,実例領域内での良好な性能を実現するために必要なクラスを検出可能であることを示す。

Increasing the semantic understanding and contextual awareness of machine learning models is important for improving robustness and reducing susceptibility to data shifts. In this work, we leverage contextual awareness for the anomaly detection problem. Although graphed-based anomaly detection has been widely studied, context-dependent anomaly detection is an open problem and without much current research. We develop a general framework for converting a context-dependent anomaly detection problem to a link prediction problem, allowing well-established techniques from this domain to be applied. We implement a system based on our framework that utilizes knowledge graph embedding models and demonstrates the ability to detect outliers using context provided by a semantic knowledge base. We show that our method can detect context-dependent anomalies with a high degree of accuracy and show that current object detectors can detect enough classes to provide the needed context for good performance within our example domain.
翻訳日:2022-03-18 13:14:47 公開日:2022-03-17
# Hoeffdingの不等式に基づく深層学習の信頼度と相対評価

Confidence Dimension for Deep Learning based on Hoeffding Inequality and Relative Evaluation ( http://arxiv.org/abs/2203.09082v1 )

ライセンス: Link先を確認
Runqi Wang, Linlin Yang, Baochang Zhang, Wentao Zhu, David Doermann, Guodong Guo(参考訳) 近年,ディープニューラルネットワーク(DNN)の一般化能力に関する研究が注目されている。 しかし、複雑なアーキテクチャと多数のパラメータにより、特定のDNNモデルの一般化能力の測定は依然としてオープンな課題である。 本稿では,信頼度次元(cd)の新たな概念に基づいて,dnnの相対的一般化の測定とランク付けに複数の因子を用いることを提案する。 さらに,従来のvapnik-chervonenk次元 (vc-dimension) とhoeffdingの不等式に基づく一般化の上界を理論的に計算することができる。 画像分類と物体検出の実験結果から,DNNの相対一般化能力を再現できることが示された。 また,全精度dnnに加えて,一般化能力が未解決問題であるバイナリニューラルネットワーク(bnns)の一般化能力も解析した。 我々のCDは、全タスクにおいて完全精度のDNNとBNNの両方に対して、一貫した信頼性のある尺度とランキングを得る。

Research on the generalization ability of deep neural networks (DNNs) has recently attracted a great deal of attention. However, due to their complex architectures and large numbers of parameters, measuring the generalization ability of specific DNN models remains an open challenge. In this paper, we propose to use multiple factors to measure and rank the relative generalization of DNNs based on a new concept of confidence dimension (CD). Furthermore, we provide a feasible framework in our CD to theoretically calculate the upper bound of generalization based on the conventional Vapnik-Chervonenk dimension (VC-dimension) and Hoeffding's inequality. Experimental results on image classification and object detection demonstrate that our CD can reflect the relative generalization ability for different DNNs. In addition to full-precision DNNs, we also analyze the generalization ability of binary neural networks (BNNs), whose generalization ability remains an unsolved problem. Our CD yields a consistent and reliable measure and ranking for both full-precision DNNs and BNNs on all the tasks.
翻訳日:2022-03-18 13:14:33 公開日:2022-03-17
# (参考訳) フロストホロー実験:エージェント間の協調とコミュニケーションの経路としてのパブロヴィアン信号

The Frost Hollow Experiments: Pavlovian Signalling as a Path to Coordination and Communication Between Agents ( http://arxiv.org/abs/2203.09498v1 )

ライセンス: CC BY 4.0
Patrick M. Pilarski, Andrew Butcher, Elnaz Davoodi, Michael Bradley Johanson, Dylan J. A. Brenneis, Adam S. R. Parker, Leslie Acker, Matthew M. Botvinick, Joseph Modayil, Adam White(参考訳) エージェント間の学習されたコミュニケーションは、独立したエージェントによって克服が難しい意思決定問題にアプローチする上で強力なツールである。 しかし、機械エージェントや人間と機械のパートナーシップ間の継続的な協調とコミュニケーションの学習は、未解決の問題である。 本稿では,Pavlovian signalling(パヴロヴィアン・シグナリング)と呼ばれる,あるエージェントによる時間的に拡張された予測を,他のエージェントが共有環境に異なる知覚的アクセスで通知するプロセスについて,多面的な研究を行った。 我々は,時間的プロセスと表現的選択が学習エージェント間のパブロフ的シグナル伝達に与える影響を明らかにする。 そのため、Frost Hollowと呼ばれる部分的に観測可能な意思決定ドメインを導入します。 このドメインでは、予測学習エージェントと強化学習エージェントを、時間条件の危険を回避しつつスパース報酬を取得しようとする2部決定システムに結合する。 ドメインのバリエーションを2つ評価する。 1)リニアウォークにおける機械予測と制御学習 2)バーチャルリアリティ環境において、人間と対話する予測学習機。 その結果,パブロフ信号の学習速度,時間的表現の違いがエージェントエージェント協調に与える影響,時間的エイリアシングがエージェントエージェントと人間エージェントの相互作用にどう影響するかが示された。 主な貢献として,固定信号処理パラダイムと完全適応通信学習の自然な橋渡しとしてパブロフ信号通信を確立する。 その結果,強化学習エージェント間の継続的なコミュニケーション学習に向けた行動可能かつ構成主義的な経路が示唆された。

Learned communication between agents is a powerful tool when approaching decision-making problems that are hard to overcome by any single agent in isolation. However, continual coordination and communication learning between machine agents or human-machine partnerships remains a challenging open problem. As a stepping stone toward solving the continual communication learning problem, in this paper we contribute a multi-faceted study into what we term Pavlovian signalling -- a process by which learned, temporally extended predictions made by one agent inform decision-making by another agent with different perceptual access to their shared environment. We seek to establish how different temporal processes and representational choices impact Pavlovian signalling between learning agents. To do so, we introduce a partially observable decision-making domain we call the Frost Hollow. In this domain a prediction learning agent and a reinforcement learning agent are coupled into a two-part decision-making system that seeks to acquire sparse reward while avoiding time-conditional hazards. We evaluate two domain variations: 1) machine prediction and control learning in a linear walk, and 2) a prediction learning machine interacting with a human participant in a virtual reality environment. Our results showcase the speed of learning for Pavlovian signalling, the impact that different temporal representations do (and do not) have on agent-agent coordination, and how temporal aliasing impacts agent-agent and human-agent interactions differently. As a main contribution, we establish Pavlovian signalling as a natural bridge between fixed signalling paradigms and fully adaptive communication learning. Our results therefore point to an actionable, constructivist path towards continual communication learning between reinforcement learning agents, with potential impact in a range of real-world settings.
翻訳日:2022-03-18 13:14:13 公開日:2022-03-17
# 追加のインストラクションの価値があるデータサンプルはいくつあるか?

How Many Data Samples is an Additional Instruction Worth? ( http://arxiv.org/abs/2203.09161v1 )

ライセンス: Link先を確認
Ravsehaj Singh Puri, Swaroop Mishra, Mihir Parmar and Chitta Baral(参考訳) 最近導入された命令パラダイムは、自然言語で新しいタスクを定義することによって、NLPリソースを活用する非専門家ユーザーに権限を与える。 命令を調整したモデルは、(命令なしで)マルチタスク学習モデルを大幅に上回っているが、最先端のタスク特化モデルとは程遠い。 多数のタスクインスタンスを持つ大規模なデータセットの作成や、モデルのアーキテクチャ/トレーニング変更を通じてモデルパフォーマンスを改善するという従来のアプローチは、専門家でないユーザにとって実現不可能な場合がある。 しかし、命令タスクを表す別の命令を書くことができる。 指導指導は役に立つか? 追加の指示でタスクのサブセットを自然命令で拡張し、低データ環境において特にモデルパフォーマンス(最大35%まで)が大幅に向上することを確認します。 この結果から,評価タスク全体で平均で40インスタンス程度の追加命令が可能であることが示唆された。

Recently introduced instruction-paradigm empowers non-expert users to leverage NLP resources by defining a new task in natural language. Instruction-tuned models have significantly outperformed multitask learning models (without instruction); however they are far from state of the art task specific models. Conventional approaches to improve model performance via creating large datasets with lots of task instances or architectural/traini ng changes in model may not be feasible for non-expert users. However, they can write alternate instructions to represent an instruction task. Is Instruction-augument ation helpful? We augment a subset of tasks in NATURAL INSTRUCTIONS with additional instructions and find that these significantly improve model performance (upto 35%) specially in low-data regime. Our results indicate that an additional instruction can be equivalent to ~40 instances on average across our evaluation tasks.
翻訳日:2022-03-18 13:11:35 公開日:2022-03-17
# DU-VLG:デュアルシーケンス・ツー・シーケンス事前学習による視覚・言語生成の統合

DU-VLG: Unifying Vision-and-Language Generation via Dual Sequence-to-Sequence Pre-training ( http://arxiv.org/abs/2203.09052v1 )

ライセンス: Link先を確認
Luyang Huang, Guocheng Niu, Jiachen Liu, Xinyan Xiao, Hua Wu(参考訳) モデル構造と事前学習目的の限界のため、既存の視覚・言語生成モデルは双方向生成ではペアワイズ画像やテキストを利用できない。 本稿では,シーケンス生成問題として視覚・言語生成を統一するフレームワークであるDU-VLGを提案する。 DU-VLGは、マルチモーダルな自動エンコーダタスクとモダリティ変換タスクという、新しい2つの事前訓練タスクで訓練されている。 イメージ理解と生成の間のギャップを埋めるため、私たちはさらに新しいコミットメント損失をデザインします。 画像キャプションとテキスト対画像生成データセットの事前学習目標を比較した。 その結果, DU-VLGは一方向生成目標を訓練した変種や, コミットメント損失を伴わない変種よりも優れた性能を示した。 また、3つの視覚・言語生成タスクにおける従来の最先端システムと比較して高いスコアを得る。 さらに,人間の判断は,本モデルが忠実で情報的なキャプションだけでなく,現実的かつ関連性の高い画像を生成することを確認する。

Due to the limitations of the model structure and pre-training objectives, existing vision-and-language generation models cannot utilize pair-wise images and text through bi-directional generation. In this paper, we propose DU-VLG, a framework which unifies vision-and-language generation as sequence generation problems. DU-VLG is trained with novel dual pre-training tasks: multi-modal denoising autoencoder tasks and modality translation tasks. To bridge the gap between image understanding and generation, we further design a novel commitment loss. We compare pre-training objectives on image captioning and text-to-image generation datasets. Results show that DU-VLG yields better performance than variants trained with uni-directional generation objectives or the variant without the commitment loss. We also obtain higher scores compared to previous state-of-the-art systems on three vision-and-language generation tasks. In addition, human judges further confirm that our model generates real and relevant images as well as faithful and informative captions.
翻訳日:2022-03-18 13:11:19 公開日:2022-03-17
# ai自律性: 自己開始、適応、継続的な学習

AI Autonomy: Self-Initiation, Adaptation and Continual Learning ( http://arxiv.org/abs/2203.08994v1 )

ライセンス: Link先を確認
Bing Liu, Sahisnu Mazumder, Eric Robertson and Scott Grigsby(参考訳) ますます多くのaiエージェントが使われるようになるにつれ、これらのエージェントを完全な自律性を持たせ、(1)人間エンジニアの開始に定期的にオフラインで再訓練されるのではなく、自己モチベーションと自己開始の方法で継続的に学習し、(2)予期せぬ状況や新しい状況に適応し適応させる方法を考える時が来ている。 現実世界は未知や新しさに満ちたオープン環境であり、新しさを検知し、特徴付け、それらに適応し、接地訓練データを集め、未知/ノベルティを段階的に学習することは、aiエージェントを時間とともにより知識豊かで強力にする上で重要である。 重要な課題は、エージェント自身のイニシアチブで継続的に実施し、人間、他のエージェント、そして人間のオンザジョブ学習と同じように環境との相互作用を通じてプロセスを自動化する方法である。 本稿では,この学習パラダイムのためのフレームワーク(SOLA)を提案する。 実現可能性を示すために、実装エージェントについても述べる。

As more and more AI agents are used in practice, it is time to think about how to make these agents fully autonomous so that they can (1) learn by themselves continually in a self-motivated and self-initiated manner rather than being retrained offline periodically on the initiation of human engineers and (2) accommodate or adapt to unexpected or novel circumstances. As the real-world is an open environment that is full of unknowns or novelties, detecting novelties, characterizing them, accommodating or adapting to them, and gathering ground-truth training data and incrementally learning the unknowns/novelties are critical to making the AI agent more and more knowledgeable and powerful over time. The key challenge is how to automate the process so that it is carried out continually on the agent's own initiative and through its own interactions with humans, other agents and the environment just like human on-the-job learning. This paper proposes a framework (called SOLA) for this learning paradigm to promote the research of building autonomous and continual learning enabled AI agents. To show feasibility, an implemented agent is also described.
翻訳日:2022-03-18 13:11:01 公開日:2022-03-17
# euler状態ネットワーク

Euler State Networks ( http://arxiv.org/abs/2203.09382v1 )

ライセンス: Link先を確認
Claudio Gallicchio(参考訳) 本稿では, 常微分方程式の数値解に着想を得て, オイラー状態ネットワーク(EuSN)と呼ばれる新しい貯留層計算(RC)モデルを提案する。 導入されたアプローチでは、前方オイラー離散化と反対称再帰行列を用いて、構造によって安定かつ非散逸な貯水池ダイナミクスを設計する。 我々の数学的解析は、結果のモデルが一元的有効スペクトル半径とゼロ局所リアプノフ指数に偏り、本質的に安定性の端で動作していることを示している。 合成課題実験は, 長期記憶能力を必要とするタスクにおいて, 標準rcモデルと比較して, 提案手法の顕著な優位性を示している。 さらに、実世界の時系列分類ベンチマークの結果、EuSNはトレーニング可能なリカレントニューラルネットワークの精度のレベルをマッチング(あるいは超える)し、計算時間とエネルギー消費の最大100倍の節約を可能にすると指摘している。

Inspired by the numerical solution of ordinary differential equations, in this paper we propose a novel Reservoir Computing (RC) model, called the Euler State Network (EuSN). The introduced approach makes use of forward Euler discretization and antisymmetric recurrent matrices to design reservoir dynamics that are both stable and non-dissipative by construction. Our mathematical analysis shows that the resulting model is biased towards unitary effective spectral radius and zero local Lyapunov exponents, intrinsically operating at the edge of stability. Experiments on synthetic tasks indicate the marked superiority of the proposed approach, compared to standard RC models, in tasks requiring long-term memorization skills. Furthermore, results on real-world time series classification benchmarks point out that EuSN is capable of matching (or even surpassing) the level of accuracy of trainable Recurrent Neural Networks, while allowing up to 100-fold savings in computation time and energy consumption.
翻訳日:2022-03-18 13:07:39 公開日:2022-03-17
# 数少ない学習のためのトランスフォーマーにおける学習とスペクトルトークンのプール化

Attribute Surrogates Learning and Spectral Tokens Pooling in Transformers for Few-shot Learning ( http://arxiv.org/abs/2203.09064v1 )

ライセンス: Link先を確認
Yangji He, Weihan Liang, Dongyang Zhao, Hong-Yu Zhou, Weifeng Ge, Yizhou Yu, and Wenqiang Zhang(参考訳) 本稿では,属性サロゲート学習とスペクトルトークンプールによるデータ効率の向上が可能な階層型カスケードトランスを提案する。 ビジョントランスフォーマーは近年、視覚認識のための畳み込みニューラルネットワークの代替として期待されている。 しかし、十分なデータがなければ、オーバーフィッティングに悩まされ、パフォーマンスが低下します。 データ効率を向上させるために,スペクトルトークンプーリングによる固有画像構造を利用した階層的カスケード変換器を提案し,潜在属性サロゲートによる学習可能なパラメータを最適化する。 固有画像構造を利用して、スペクトルトークンプールによる前景内容と背景雑音とのあいまいさを低減する。 また、属性代理学習方式は、ラベルに割り当てられた単純な視覚概念の代わりに、画像ラベルペアの豊富な視覚情報を活用するように設計されている。 HCTransformersと呼ばれる私たちの階層的なカスケードトランスフォーマーは、自己教師付き学習フレームワークDINOの上に構築されており、人気のある数ショットの学習ベンチマークでテストされています。 インダクティブ設定では、HCTransformersはDINOベースラインを9.7%の5ウェイ1ショット精度と9.17%の5ウェイ5ショット精度で上回り、HCTransformersは識別特性の抽出に効率的であることを示す。 また、HCTransformersは、MiniImageNet、tyredImageNet、FC100、CIFAR-FSを含む4つの人気のあるベンチマークデータセットにおいて、5ウェイの1ショットと5ウェイの5ショット設定の両方でSOTAの少ショット分類方法よりも明確な利点を示している。 トレーニングされたウェイトとコードはhttps://github.com/S tomachCold/HCTransfo rmersで公開されている。

This paper presents new hierarchically cascaded transformers that can improve data efficiency through attribute surrogates learning and spectral tokens pooling. Vision transformers have recently been thought of as a promising alternative to convolutional neural networks for visual recognition. But when there is no sufficient data, it gets stuck in overfitting and shows inferior performance. To improve data efficiency, we propose hierarchically cascaded transformers that exploit intrinsic image structures through spectral tokens pooling and optimize the learnable parameters through latent attribute surrogates. The intrinsic image structure is utilized to reduce the ambiguity between foreground content and background noise by spectral tokens pooling. And the attribute surrogate learning scheme is designed to benefit from the rich visual information in image-label pairs instead of simple visual concepts assigned by their labels. Our Hierarchically Cascaded Transformers, called HCTransformers, is built upon a self-supervised learning framework DINO and is tested on several popular few-shot learning benchmarks. In the inductive setting, HCTransformers surpass the DINO baseline by a large margin of 9.7% 5-way 1-shot accuracy and 9.17% 5-way 5-shot accuracy on miniImageNet, which demonstrates HCTransformers are efficient to extract discriminative features. Also, HCTransformers show clear advantages over SOTA few-shot classification methods in both 5-way 1-shot and 5-way 5-shot settings on four popular benchmark datasets, including miniImageNet, tieredImageNet, FC100, and CIFAR-FS. The trained weights and codes are available at https://github.com/S tomachCold/HCTransfo rmers.
翻訳日:2022-03-18 13:06:28 公開日:2022-03-17
# 視覚トランスフォーマーはスプリアス相関に堅牢か?

Are Vision Transformers Robust to Spurious Correlations? ( http://arxiv.org/abs/2203.09125v1 )

ライセンス: Link先を確認
Soumya Suvra Ghosal, Yifei Ming and Yixuan Li(参考訳) ディープニューラルネットワークは、非定型的なテストサンプルにはない平均的な相関関係を学習する影響を受けやすい可能性がある。 視覚トランスフォーマー(vit)モデルが最近出現したのと同様に、このようなアーキテクチャにおいていかにスプリアスな相関が現れるかは未検討のままである。 本稿では,3つの難解なベンチマークデータセットにおけるスプリアス相関に対する視覚トランスフォーマーのロバスト性を調査し,その性能を人気のあるcnnと比較する。 我々の研究は、十分に大きなデータセットで事前訓練された場合、VTモデルはCNNよりも刺激的な相関に頑健であることを示した。 彼らの成功の鍵は、散発的な相関が持たない例からよりよい一般化ができることです。 さらに,スプリアス相関環境下でのロバスト性提供における自己着脱機構の役割を理解するため,広範囲なアブレーションと実験を行った。 われわれの研究がViTモデルの堅牢性をさらに理解するための将来の研究を刺激することを期待している。

Deep neural networks may be susceptible to learning spurious correlations that hold on average but not in atypical test samples. As with the recent emergence of vision transformer (ViT) models, it remains underexplored how spurious correlations are manifested in such architectures. In this paper, we systematically investigate the robustness of vision transformers to spurious correlations on three challenging benchmark datasets and compare their performance with popular CNNs. Our study reveals that when pre-trained on a sufficiently large dataset, ViT models are more robust to spurious correlations than CNNs. Key to their success is the ability to generalize better from the examples where spurious correlations do not hold. Further, we perform extensive ablations and experiments to understand the role of the self-attention mechanism in providing robustness under spuriously correlated environments. We hope that our work will inspire future research on further understanding the robustness of ViT models.
翻訳日:2022-03-18 13:05:57 公開日:2022-03-17
# DetMatch:2人の教師が2Dと3Dの半監督オブジェクト検出で1より優れている

DetMatch: Two Teachers are Better Than One for Joint 2D and 3D Semi-Supervised Object Detection ( http://arxiv.org/abs/2203.09510v1 )

ライセンス: Link先を確認
Jinhyung Park, Chenfeng Xu, Yiyang Zhou, Masayoshi Tomizuka, Wei Zhan(参考訳) rgb画像と点雲の相補的な関係を生かした多数の3d検出研究は行われているが、半教師付き物体認識のより広い枠組みにおける開発はマルチモーダル融合による影響を及ぼさない。 現在の方法は、2dと3dの半教師付き学習のための独立したパイプラインを開発する。 各センサの異なる特性が異なる物体の検出に偏っていることを観察し、2次元および3次元のモダリティを結合した半教師付き学習のための柔軟なフレームワーク detmatch を提案する。 両方のセンサで検出されたオブジェクトを識別することで、パイプラインはよりクリーンでより堅牢な擬似ラベルを生成します。 さらに,RGB画像のよりリッチなセマンティクスを活用し,不正確な3Dクラスの予測を修正し,3Dボックスの局所化を改善する。 挑戦的なKITTIとWaymoのデータセットを評価し,強力な半教師付き学習法を改善し,高品質な擬似ラベルを観察する。 コードはhttps://github.com/D ivadi/DetMatchでリリースされる。

While numerous 3D detection works leverage the complementary relationship between RGB images and point clouds, developments in the broader framework of semi-supervised object recognition remain uninfluenced by multi-modal fusion. Current methods develop independent pipelines for 2D and 3D semi-supervised learning despite the availability of paired image and point cloud frames. Observing that the distinct characteristics of each sensor cause them to be biased towards detecting different objects, we propose DetMatch, a flexible framework for joint semi-supervised learning on 2D and 3D modalities. By identifying objects detected in both sensors, our pipeline generates a cleaner, more robust set of pseudo-labels that both demonstrates stronger performance and stymies single-modality error propagation. Further, we leverage the richer semantics of RGB images to rectify incorrect 3D class predictions and improve localization of 3D boxes. Evaluating on the challenging KITTI and Waymo datasets, we improve upon strong semi-supervised learning methods and observe higher quality pseudo-labels. Code will be released at https://github.com/D ivadi/DetMatch
翻訳日:2022-03-18 13:05:39 公開日:2022-03-17
# マルチドメイン長大認識・一般化・超越について

On Multi-Domain Long-Tailed Recognition, Generalization and Beyond ( http://arxiv.org/abs/2203.09513v1 )

ライセンス: Link先を確認
Yuzhe Yang, Hao Wang, Dina Katabi(参考訳) 実世界のデータは、しばしば不均衡なラベル分布を示す。 データの不均衡に関する既存の研究は、単一のドメインの設定、すなわち同じデータ分散からのサンプルに焦点を当てている。 しかし、自然データは、あるドメインのマイノリティクラスが他のドメインから豊富なインスタンスを持つことができる異なるドメインに由来する可能性がある。 我々は,マルチドメイン不均衡データ,ラベル不均衡,ドメインシフト,ドメイン間のラベル分散から学習し,すべてのドメインクラス対に一般化するマルチドメインロングテール認識(mdlt)のタスクを定式化する。 まず,ドメインクラストランスファービリティグラフを開発し,mdltにおける学習の成功を制御していることを示す。 次に,転送可能性統計の上限を追跡し,不均衡なドメインクラス分布をまたいだバランスのとれたアライメントとキャリブレーションを保証する理論的根拠付き学習戦略bodaを提案する。 広く使われているマルチドメインデータセットに基づいてMDLTベンチマークを5つキュレートし、BoDAを異なる学習戦略にまたがる20のアルゴリズムと比較する。 広範かつ厳密な実験は、BoDAの優れた性能を検証する。 さらに、副産物として、BoDAはドメインの一般化に関する新しい最先端のベンチマークを確立し、目に見えないドメインへの一般化を改善した。 コードとデータはhttps://github.com/y yzharry/multi-domain -imbalanceで入手できる。

Real-world data often exhibit imbalanced label distributions. Existing studies on data imbalance focus on single-domain settings, i.e., samples are from the same data distribution. However, natural data can originate from distinct domains, where a minority class in one domain could have abundant instances from other domains. We formalize the task of Multi-Domain Long-Tailed Recognition (MDLT), which learns from multi-domain imbalanced data, addresses label imbalance, domain shift, and divergent label distributions across domains, and generalizes to all domain-class pairs. We first develop the domain-class transferability graph, and show that such transferability governs the success of learning in MDLT. We then propose BoDA, a theoretically grounded learning strategy that tracks the upper bound of transferability statistics, and ensures balanced alignment and calibration across imbalanced domain-class distributions. We curate five MDLT benchmarks based on widely-used multi-domain datasets, and compare BoDA to twenty algorithms that span different learning strategies. Extensive and rigorous experiments verify the superior performance of BoDA. Further, as a byproduct, BoDA establishes new state-of-the-art on Domain Generalization benchmarks, improving generalization to unseen domains. Code and data are available at https://github.com/Y yzHarry/multi-domain -imbalance.
翻訳日:2022-03-18 13:05:05 公開日:2022-03-17
# mamlのグローバル収束と理論にインスパイアされたニューラルアーキテクチャ探索

Global Convergence of MAML and Theory-Inspired Neural Architecture Search for Few-Shot Learning ( http://arxiv.org/abs/2203.09137v1 )

ライセンス: Link先を確認
Haoxiang Wang, Yite Wang, Ruoyu Sun, Bo Li(参考訳) モデルに依存しないメタラーニング(MAML)とその変種は、数ショット学習の一般的なアプローチとなっている。 しかし、ディープニューラルネット(DNN)の非凸性とMAMLの2レベル定式化のため、MAMLとDNNの理論的性質はほとんど不明である。 本稿では,DNNを過度にパラメータ化したMAMLが,線形速度でグローバル最適に収束することが保証されていることを最初に証明する。 我々の収束解析は、過パラメータDNNを持つMAMLが、新しいカーネルのクラスを持つカーネル回帰と等価であることを示し、MetaNTK(Meta Neural Tangent Kernels)と呼ぶ。 次に,MetaNTK-NASを提案する。これは,MetaNTKを用いてアーキテクチャのランク付けと選択を行う,数ショット学習のための新しいトレーニングフリーニューラルネットワークサーチ(NAS)手法である。 実験的に、私たちはMetaNTK-NASと従来のNAS手法を2つの人気のある数ショット学習ベンチマークであるminiImageNetとtyredImageNetで比較した。 我々は,MetaNTK-NASの性能が,100倍以上のスピードアップを享受しながら,数ショット学習用に設計されたNAS法と同等あるいは同等であることを示す。 我々は,MetaNTK-NASの効率性によって,多くの実世界のタスクにおいてより実用的になると考えている。

Model-agnostic meta-learning (MAML) and its variants have become popular approaches for few-shot learning. However, due to the non-convexity of deep neural nets (DNNs) and the bi-level formulation of MAML, the theoretical properties of MAML with DNNs remain largely unknown. In this paper, we first prove that MAML with over-parameterized DNNs is guaranteed to converge to global optima at a linear rate. Our convergence analysis indicates that MAML with over-parameterized DNNs is equivalent to kernel regression with a novel class of kernels, which we name as Meta Neural Tangent Kernels (MetaNTK). Then, we propose MetaNTK-NAS, a new training-free neural architecture search (NAS) method for few-shot learning that uses MetaNTK to rank and select architectures. Empirically, we compare our MetaNTK-NAS with previous NAS methods on two popular few-shot learning benchmarks, miniImageNet, and tieredImageNet. We show that the performance of MetaNTK-NAS is comparable or better than the state-of-the-art NAS method designed for few-shot learning while enjoying more than 100x speedup. We believe the efficiency of MetaNTK-NAS makes itself more practical for many real-world tasks.
翻訳日:2022-03-18 13:04:21 公開日:2022-03-17
# 長さ認識フレームワークを用いた同時機械翻訳における位置バイアスの低減

Reducing Position Bias in Simultaneous Machine Translation with Length-Aware Framework ( http://arxiv.org/abs/2203.09053v1 )

ライセンス: Link先を確認
Shaolei Zhang, Yang Feng(参考訳) 同時機械翻訳(SiMT)は、ストリーミングソース入力を受信しながら翻訳を開始するため、翻訳中はソース文が常に不完全である。 従来のseq-to-seqアーキテクチャを使用したフルセンテンスmtとは異なり、simtはプレフィックスからプリフィックスへのアーキテクチャをしばしば採用しており、各ターゲットワードは、ストリーミング入力における不完全なソースに適応するために、部分的なソースプレフィックスにのみ対応せざるを得ない。 しかし、前置位置にあるソースワードは、プレフィックスが増えて位置バイアスが生じ、テストにおいて前置位置に注意を向けるようになるため、常により重要視されている。 本稿では,まずsimtの位置バイアス現象を解析し,simtとフルセンテンスmt間の構造ギャップを橋渡しすることで位置バイアスを低減させる長さ認識フレームワークを開発した。 提案するフレームワークは、パフォーマンスをさらに向上するために、既存のほとんどのSiMTメソッドに統合することができる。 現状適応ポリシを含む2つの代表的なSiMT手法の実験により,本手法が位置バイアスを低減し,優れたSiMT性能を実現することを示す。

Simultaneous machine translation (SiMT) starts translating while receiving the streaming source inputs, and hence the source sentence is always incomplete during translating. Different from the full-sentence MT using the conventional seq-to-seq architecture, SiMT often applies prefix-to-prefix architecture, which forces each target word to only align with a partial source prefix to adapt to the incomplete source in streaming inputs. However, the source words in the front positions are always illusoryly considered more important since they appear in more prefixes, resulting in position bias, which makes the model pay more attention on the front source positions in testing. In this paper, we first analyze the phenomenon of position bias in SiMT, and develop a Length-Aware Framework to reduce the position bias by bridging the structural gap between SiMT and full-sentence MT. Specifically, given the streaming inputs, we first predict the full-sentence length and then fill the future source position with positional encoding, thereby turning the streaming inputs into a pseudo full-sentence. The proposed framework can be integrated into most existing SiMT methods to further improve performance. Experiments on two representative SiMT methods, including the state-of-the-art adaptive policy, show that our method successfully reduces the position bias and achieves better SiMT performance.
翻訳日:2022-03-18 13:03:49 公開日:2022-03-17
# 同時機械翻訳のためのガウス多頭部注意

Gaussian Multi-head Attention for Simultaneous Machine Translation ( http://arxiv.org/abs/2203.09072v1 )

ライセンス: Link先を確認
Shaolei Zhang, Yang Feng(参考訳) 同時機械翻訳(SiMT)は、ストリーミングソース入力を受信しながら翻訳を出力するので、翻訳開始先を決定するためのポリシーが必要である。 ターゲット語とソース語間のアライメントは、しばしばターゲット語毎の最も情報性の高いソース語を意味し、したがって翻訳品質と遅延の統一的な制御を提供するが、残念ながら既存のSiMTメソッドは、アライメントを明示的にモデル化して制御を実行することはない。 本稿では,アライメントと翻訳を統一的にモデル化し,新しいSiMTポリシーを開発するために,ガウス多頭部注意(GMA)を提案する。 SiMTポリシーでは、GMAは各対象単語の整列元位置をモデル化し、その整列元位置が翻訳開始するまで待つ。 翻訳モデルにアライメントの学習を統合するために、予測アライメント位置を中心とするガウス分布をアライメント関連先行として導入し、翻訳関連ソフトアテンションと協調して最終的なアライメントを決定する。 En-ViタスクとDe-Enタスクの実験により、我々の手法は翻訳とレイテンシのトレードオフにおいて強いベースラインを上回ります。

Simultaneous machine translation (SiMT) outputs translation while receiving the streaming source inputs, and hence needs a policy to determine where to start translating. The alignment between target and source words often implies the most informative source word for each target word, and hence provides the unified control over translation quality and latency, but unfortunately the existing SiMT methods do not explicitly model the alignment to perform the control. In this paper, we propose Gaussian Multi-head Attention (GMA) to develop a new SiMT policy by modeling alignment and translation in a unified manner. For SiMT policy, GMA models the aligned source position of each target word, and accordingly waits until its aligned position to start translating. To integrate the learning of alignment into the translation model, a Gaussian distribution centered on predicted aligned position is introduced as an alignment-related prior, which cooperates with translation-related soft attention to determine the final attention. Experiments on En-Vi and De-En tasks show that our method outperforms strong baselines on the trade-off between translation and latency.
翻訳日:2022-03-18 13:03:25 公開日:2022-03-17
# 知識グラフ付きテキストベース自動パーソナリティ予測

Knowledge Graph-Enabled Text-Based Automatic Personality Prediction ( http://arxiv.org/abs/2203.09103v1 )

ライセンス: Link先を確認
Majid Ramezani and Mohammad-Reza Feizi-Derakhshi and Mohammad-Ali Balafar(参考訳) 人々がどう考えるか、感じるか、振舞うかは、主に人格の特徴を表現することである。 私たちが扱っている、あるいは扱おうと決めた個人の性格特性を意識することで、その種類に関係なく、その関係を巧みに改善することができる。 インターネットベースのコミュニケーション基盤(ソーシャルネットワーク、フォーラムなど)の台頭に伴い、人間によるコミュニケーションがかなりの量行われている。 このようなコミュニケーションにおける最も顕著な道具は、個人の本質的な性格特性を巧みにエンコードする書き言葉と話し言葉による言語である。 テキストベースの自動パーソナリティ予測(APP)は、生成/交換されたテキストコンテンツに基づいて個人個人のパーソナリティを自動予測する。 本稿では,テキストベースのアプリケーションに対して,5つの大きなパーソナリティ特性に依存する新しい知識グラフ対応アプローチを提案する。 この目的のために、入力テキストの概念とDBpedia知識ベースエントリをマッチングすることにより、概念の相互リンク記述の集合である知識グラフをテキストとして構築した。 そして、より強力な表現を達成するために、グラフはdbpediaオントロジー、nrc感情強度レキシコン、mrc精神言語学データベース情報で豊かになった。 その後、入力テキストの知識可能な代替となる知識グラフが埋め込まれ、埋め込み行列が生成される。 最後に、人格予測を行うために、結果として得られる埋め込み行列を、畳み込みニューラルネットワーク(CNN)、単純なリカレントニューラルネットワーク(RNN)、長期記憶(LSTM)、双方向長期記憶(BiLSTM)に基づく4つの深層学習モデルに独立して供給した。 その結果,提案したすべての分類器の予測精度は有意に向上した。

How people think, feel, and behave, primarily is a representation of their personality characteristics. By being conscious of personality characteristics of individuals whom we are dealing with or decided to deal with, one can competently ameliorate the relationship, regardless of its type. With the rise of Internet-based communication infrastructures (social networks, forums, etc.), a considerable amount of human communications take place there. The most prominent tool in such communications, is the language in written and spoken form that adroitly encodes all those essential personality characteristics of individuals. Text-based Automatic Personality Prediction (APP) is the automated forecasting of the personality of individuals based on the generated/exchanged text contents. This paper presents a novel knowledge graph-enabled approach to text-based APP that relies on the Big Five personality traits. To this end, given a text a knowledge graph which is a set of interlinked descriptions of concepts, was built through matching the input text's concepts with DBpedia knowledge base entries. Then, due to achieving more powerful representation the graph was enriched with the DBpedia ontology, NRC Emotion Intensity Lexicon, and MRC psycholinguistic database information. Afterwards, the knowledge graph which is now a knowledgeable alternative for the input text was embedded to yield an embedding matrix. Finally, to perform personality predictions the resulting embedding matrix was fed to four suggested deep learning models independently, which are based on convolutional neural network (CNN), simple recurrent neural network (RNN), long short term memory (LSTM) and bidirectional long short term memory (BiLSTM). The results indicated a considerable improvements in prediction accuracies in all of the suggested classifiers.
翻訳日:2022-03-18 13:03:03 公開日:2022-03-17
# POLARIS: Baidu Mapsにおける地理事前学習モデルとその応用

POLARIS: A Geographic Pre-trained Model and its Applications in Baidu Maps ( http://arxiv.org/abs/2203.09127v1 )

ライセンス: Link先を確認
Huang Jizhou and Wang Haifeng and Sun Yibo and Shi Yunsheng and Huang Zhengjie and Zhuo An and Feng Shikun(参考訳) 事前学習モデル(PTM)は、自然言語処理やコンピュータビジョンにおける下流タスクの基本的なバックボーンとなっている。 Baidu Maps の地理関連タスクに汎用的 PTM を適用することで得られる初期利益にもかかわらず、時間経過とともに明らかなパフォーマンスプラトーが観測された。 この台地の主な理由の1つは、汎用的なPTMにおいて容易に利用できる地理的知識が欠如していることである。 この問題に対処するため,本稿では,Baidu Mapsにおける地理関連タスクの改善を目的とした地理事前学習モデルPOLARISを提案する。 POLARISは、豊富な地理知識を含む異種グラフから生成された大規模データを事前学習することで、地理言語の普遍的な表現を学ぶために精巧に設計されている。 大規模実世界のデータセットを用いた大規模定量定性的実験は、POLARISの優位性と有効性を示す。 POLARISはすでに2021年4月からBaidu Mapsで運用されている。 このことは、POLARISが地理的関連タスクの基本的なバックボーンとして機能できることを示している。

Pre-trained models (PTMs) have become a fundamental backbone for downstream tasks in natural language processing and computer vision. Despite initial gains that were obtained by applying generic PTMs to geo-related tasks at Baidu Maps, a clear performance plateau over time was observed. One of the main reasons for this plateau is the lack of readily available geographic knowledge in generic PTMs. To address this problem, in this paper, we present POLARIS, which is a geographic pre-trained model designed and developed for improving the geo-related tasks at Baidu Maps. POLARIS is elaborately designed to learn a universal representation of geography-language by pre-training on large-scale data generated from a heterogeneous graph that contains abundant geographic knowledge. Extensive quantitative and qualitative experiments conducted on large-scale real-world datasets demonstrate the superiority and effectiveness of POLARIS. POLARIS has already been deployed in production at Baidu Maps since April 2021, which significantly benefits the performance of a wide range of downstream tasks. This demonstrates that POLARIS can serve as a fundamental backbone for geo-related tasks.
翻訳日:2022-03-18 13:02:34 公開日:2022-03-17
# 同時機械翻訳のためのデュアルリード/ライトパスのモデル化

Modeling Dual Read/Write Paths for Simultaneous Machine Translation ( http://arxiv.org/abs/2203.09163v1 )

ライセンス: Link先を確認
Shaolei Zhang, Yang Feng(参考訳) 同時機械翻訳(simt)は、ソース文を読みながら翻訳を出力するため、次のソースワード(読み取り)を待つか、ターゲットワード(書き込み)を生成するかを決定するポリシーが必要となる。 SiMTのパフォーマンスにはリード/ライトパスが不可欠だが、既存のメソッドのパスに対して直接監督されることはない。 本稿では,読み取り/書き込み経路を導出するために,双対性制約を導入する双対経路simt法を提案する。 双対性制約により、ソース間およびターゲット間simtモデルの読み取り/書き込みパスを相互にマッピングすることができる。 したがって、2方向のSiMTモデルは、マッピング関係を満たすように読み書きパスを強制することによって、共同最適化される。 En-ViタスクとDe-En SiMTタスクの実験により、我々の手法は全てのレイテンシで強いベースラインを上回ります。

Simultaneous machine translation (SiMT) outputs the translation while reading the source sentence and hence requires a policy to determine whether to wait for the next source word (READ) or generate a target word (WRITE), the actions of which form a read/write path. Although the read/write path is essential to SiMT performance, there is no direct supervision given to the path in the existing methods. In this paper, we propose a method of Dual Path SiMT which introduces duality constraints to guide the read/write path. According to duality constraints, the read/write paths in source-to-target and target-to-source SiMT models can be mapped to each other. Therefore, the SiMT models in two directions are jointly optimized by forcing their read/write paths to satisfy the mapping relation. Experiments on En-Vi and De-En SiMT tasks show that our method can outperform strong baselines under all latency.
翻訳日:2022-03-18 13:02:20 公開日:2022-03-17
# unimo-2: エンドツーエンドの視覚言語統合学習

UNIMO-2: End-to-End Unified Vision-Language Grounded Learning ( http://arxiv.org/abs/2203.09067v1 )

ライセンス: Link先を確認
Wei Li, Can Gao, Guocheng Niu, Xinyan Xiao, Hao Liu, Jiachen Liu, Hua Wu, Haifeng Wang(参考訳) vision-language pre-training (vlp)は様々なクロスモーダルダウンストリームタスクで印象的なパフォーマンスを達成している。 しかし、既存の手法のほとんどは画像キャプチャデータからのみ学習することができ、高価な地域機能に大きく依存しているため、スケーラビリティとパフォーマンスが大幅に制限されている。 本稿では,画像キャプチャデータと非アライメント画像のみとテキストのみのコーパスを共同で学習するための,エンドツーエンドの統一モーダル事前学習フレームワークunimo-2を提案する。 我々は,視覚表現,テキスト表現,画像とテキスト間の意味的アライメントを共同で学習する統一トランスフォーマーモデルを構築した。 特に,画像とテキストの接地学習を,共有接地空間を通じて行うことを提案する。これは不整合画像とテキストをブリッジし,視覚的およびテキスト的意味空間を異なるタイプのコーパスに整列させる。 実験の結果,本手法はテキストと視覚のセマンティックアライメントを向上し,多種多様なモーダルタスクの性能向上を図っている。 さらに,様々なコーパスの効果的な共同モデリングの利点を活かし,単一モーダルの視覚的およびテキスト的タスクにおいて印象的なパフォーマンスを実現する。 コードとモデルはunimoプロジェクトページhttps://unimo-ptm.gi thub.io/で公開されている。

Vision-Language Pre-training (VLP) has achieved impressive performance on various cross-modal downstream tasks. However, most existing methods can only learn from aligned image-caption data and rely heavily on expensive regional features, which greatly limits their scalability and performance. In this paper, we propose an end-to-end unified-modal pre-training framework, namely UNIMO-2, for joint learning on both aligned image-caption data and unaligned image-only and text-only corpus. We build a unified Transformer model to jointly learn visual representations, textual representations and semantic alignment between images and texts. In particular, we propose to conduct grounded learning on both images and texts via a sharing grounded space, which helps bridge unaligned images and texts, and align the visual and textual semantic spaces on different types of corpora. The experiments show that our grounded learning method can improve textual and visual semantic alignment for improving performance on various cross-modal tasks. Moreover, benefiting from effective joint modeling of different types of corpora, our model also achieves impressive performance on single-modal visual and textual tasks. Our code and models are public at the UNIMO project page https://unimo-ptm.gi thub.io/.
翻訳日:2022-03-18 13:00:57 公開日:2022-03-17
# マルチモーダルBERTにおける構造知識の発見

Finding Structural Knowledge in Multimodal-BERT ( http://arxiv.org/abs/2203.09306v1 )

ライセンス: Link先を確認
Victor Milewski, Miryam de Lhoneux, Marie-Francine Moens(参考訳) 本研究では,マルチモーダルBERTモデルの埋め込みにおける知識について検討する。 より具体的には、言語データの文法構造を記憶する能力と、視覚データのオブジェクト上で学習した構造を探索する。 その目標を達成するために、まず、画像を記述する文の依存関係パースと、画像内の対象領域間の依存関係によって、言語と視覚の固有の構造を明示する。 この明示的な視覚的構造を \textit{scene tree} と呼び、それは言語記述の依存関係ツリーに基づいている。 広範囲な探索実験により、マルチモーダルベルトモデルはこれらのシーンツリーをエンコードしていないことが示されている。

In this work, we investigate the knowledge learned in the embeddings of multimodal-BERT models. More specifically, we probe their capabilities of storing the grammatical structure of linguistic data and the structure learned over objects in visual data. To reach that goal, we first make the inherent structure of language and visuals explicit by a dependency parse of the sentences that describe the image and by the dependencies between the object regions in the image, respectively. We call this explicit visual structure the \textit{scene tree}, that is based on the dependency tree of the language description. Extensive probing experiments show that the multimodal-BERT models do not encode these scene trees.Code available at \url{https://github.com/V SJMilewski/multimoda l-probes}.
翻訳日:2022-03-18 13:00:36 公開日:2022-03-17
# Chosenが気に入ったら、もっとデータが必要だ:データ拡張のための普遍的なサンプル効率の戦略

When Chosen Wisely, More Data Is What You Need: A Universal Sample-Efficient Strategy For Data Augmentation ( http://arxiv.org/abs/2203.09391v1 )

ライセンス: Link先を確認
Ehsan Kamalloo, Mehdi Rezagholizadeh, Ali Ghodsi(参考訳) データ拡張(DA)は、ディープニューラルネットワークの一般化性を改善することが知られている。 既存のDA手法の多くは、これらのサンプルの品質と追加の計算コストを考慮せずに、ある程度の増分サンプルを追加する。 この問題に対処するために、いくつかの最先端DA手法で採用されている共通戦略は、訓練中の課題目標に対して適応的に強化サンプルを生成し、再重み付けすることである。 しかし、これらの適応da法は、(1)計算コストが高く、サンプル効率が良くない、(2)特定の設定のために設計されている。 本稿では,両問題を克服するために,Glitterと呼ばれる汎用DA手法を提案する。 Glitterは任意のDAメソッドにプラグインすることができ、パフォーマンスを犠牲にすることなくサンプル効率を向上することができる。 拡張されたサンプルのプールから、glitterは最大損失を持つ最悪のサンプルのサブセットを適応的に選択する。 トレーニング戦略を変更することなく、タスクの目的を選択したサブセットに最適化することができる。 GLUEベンチマーク、SQuAD、HellaSwagの徹底的な実験により、一貫性トレーニング、自己蒸留、知識蒸留を含む3つの広く使われているトレーニングセットにおいて、Glitterはトレーニングがかなり速く、強力なベースラインに比べて競争性能が向上していることが明らかとなった。

Data Augmentation (DA) is known to improve the generalizability of deep neural networks. Most existing DA techniques naively add a certain number of augmented samples without considering the quality and the added computational cost of these samples. To tackle this problem, a common strategy, adopted by several state-of-the-art DA methods, is to adaptively generate or re-weight augmented samples with respect to the task objective during training. However, these adaptive DA methods: (1) are computationally expensive and not sample-efficient, and (2) are designed merely for a specific setting. In this work, we present a universal DA technique, called Glitter, to overcome both issues. Glitter can be plugged into any DA method, making training sample-efficient without sacrificing performance. From a pre-generated pool of augmented samples, Glitter adaptively selects a subset of worst-case samples with maximal loss, analogous to adversarial DA. Without altering the training strategy, the task objective can be optimized on the selected subset. Our thorough experiments on the GLUE benchmark, SQuAD, and HellaSwag in three widely used training setups including consistency training, self-distillation and knowledge distillation reveal that Glitter is substantially faster to train and achieves a competitive performance, compared to strong baselines.
翻訳日:2022-03-18 12:59:49 公開日:2022-03-17
# (参考訳) インターネットサービス分野におけるデータモニタリング [全文訳有]

Practical data monitoring in the internet-services domain ( http://arxiv.org/abs/2203.08067v2 )

ライセンス: CC BY 4.0
Nikhil Galagali(参考訳) 大規模監視、異常検出、およびメトリクスの根本原因分析は、インターネットサービス産業にとって不可欠な要件である。 何百万ものメトリクスを継続的に監視する必要性に対処するため、大規模なインターネットベースの企業では、多くの異常検出アプローチが毎日使用されている。 しかし、測定値の異常を正確にかつ効率的に検出するための大きな進歩にもかかわらず、測定値の数の大幅なスケールは、調査が必要な偽アラームの数が依然として多いことを意味する。 本稿では,信頼性の高い大規模異常検出のための枠組みを提案する。 既存のアプローチよりもはるかに正確であり、モデルの解釈が容易であり、インターネットサービスドメインで実用的なデータ監視を可能にする。

Large-scale monitoring, anomaly detection, and root cause analysis of metrics are essential requirements of the internet-services industry. To address the need to continuously monitor millions of metrics, many anomaly detection approaches are being used on a daily basis by large internet-based companies. However, in spite of the significant progress made to accurately and efficiently detect anomalies in metrics, the sheer scale of the number of metrics has meant there are still a large number of false alarms that need to be investigated. This paper presents a framework for reliable large-scale anomaly detection. It is significantly more accurate than existing approaches and allows for easy interpretation of models, thus enabling practical data monitoring in the internet-services domain.
翻訳日:2022-03-18 12:21:36 公開日:2022-03-17
# (参考訳) ブロックで遊ぶ: サイドチャネルプロファイル攻撃のためのディープラーニングモデルの再使用に向けて [全文訳有]

Playing with blocks: Toward re-usable deep learning models for side-channel profiled attacks ( http://arxiv.org/abs/2203.08448v2 )

ライセンス: CC BY 4.0
Servio Paguada, Lejla Batina, Ileana Buhan, Igor Armendariz(参考訳) 本稿では,サイドチャネル解析のためのディープラーニングモジュールネットワークを提案する。 我々のディープラーニングアプローチは、その部分(モジュール)を他のネットワークと交換する機能を備えている。 評価毎にアーキテクチャを構築するのではなく、サイドチャネル分析に再利用可能なトレーニングされたモジュールを導入することを目的としています。 本実験は,本論文で提案するネットワークにおいて,学習の伝達性が可能であることを示す側チャネル評価が可能であることを示す。

This paper introduces a deep learning modular network for side-channel analysis. Our deep learning approach features the capability to exchange part of it (modules) with others networks. We aim to introduce reusable trained modules into side-channel analysis instead of building architectures for each evaluation, reducing the body of work when conducting those. Our experiments demonstrate that our architecture feasibly assesses a side-channel evaluation suggesting that learning transferability is possible with the network we propose in this paper.
翻訳日:2022-03-18 12:14:52 公開日:2022-03-17
# (参考訳) 2次元モデルからの知識伝達によるデータ有効3次元学習者

Data Efficient 3D Learner via Knowledge Transferred from 2D Model ( http://arxiv.org/abs/2203.08479v2 )

ライセンス: CC BY 4.0
Ping-Chung Yu, Cheng Sun, Min Sun(参考訳) 登録された3dポイントクラウドの収集とラベリングは費用がかかる。 結果として、トレーニング用の3Dリソースは通常、2D画像と比較して量的に制限される。 本研究では,RGB-D画像を用いた強力な2次元モデルから知識を伝達することで,3次元タスクのデータ不足に対処する。 具体的には,2次元画像に対して,強いセマンティックセグメンテーションモデルを用いて,擬似ラベルを用いたRGB-D画像の増強を行う。 拡張データセットは、3dモデルの事前トレーニングに使用できる。 最後に,数個のラベル付き3Dインスタンスを微調整するだけで,既存の3Dラベルの効率向上に適した最先端技術よりも優れています。 また,前訓練により平均教師とエントロピー最小化の結果が改善できることを示し,半教師設定において伝達知識が有効であることを示唆した。 2つの一般的な3Dモデルと3つの異なるタスクに対するアプローチの有効性を検証する。 また,scannetのオフィシャル評価において,データ効率のよいトラック上で,新たな意味セグメンテーション結果を確立する。

Collecting and labeling the registered 3D point cloud is costly. As a result, 3D resources for training are typically limited in quantity compared to the 2D images counterpart. In this work, we deal with the data scarcity challenge of 3D tasks by transferring knowledge from strong 2D models via RGB-D images. Specifically, we utilize a strong and well-trained semantic segmentation model for 2D images to augment RGB-D images with pseudo-label. The augmented dataset can then be used to pre-train 3D models. Finally, by simply fine-tuning on a few labeled 3D instances, our method already outperforms existing state-of-the-art that is tailored for 3D label efficiency. We also show that the results of mean-teacher and entropy minimization can be improved by our pre-training, suggesting that the transferred knowledge is helpful in semi-supervised setting. We verify the effectiveness of our approach on two popular 3D models and three different tasks. On ScanNet official evaluation, we establish new state-of-the-art semantic segmentation results on the data-efficient track.
翻訳日:2022-03-18 11:58:32 公開日:2022-03-17
# (参考訳) 構造的不確かさ問題と Lov\'asz ヒンジ [全文訳有]

The Structured Abstain Problem and the Lov\'asz Hinge ( http://arxiv.org/abs/2203.08645v2 )

ライセンス: CC BY 4.0
Jessie Finocchiaro and Rafael Frongillo and Enrique Nueve(参考訳) lov\'asz ヒンジは構造化バイナリ分類のために最近提案された凸サーロゲートで、$k$ バイナリの予測が同時に行われ、エラーは部分モジュラー集合関数によって判断される。 画像のセグメンテーションや関連する問題で広く使われているが、一貫性は依然として維持されている。 この開問題は、Lov\'asz のヒンジが、集合関数がモジュラーでない限り、その所望の目的に対して矛盾しないことを示す。 最近の組込みフレームワークを利用することで、lov\'aszヒンジが一貫性のあるターゲット損失を導出します。 このターゲットは構造化アブスタン問題(structured abstain problem)と呼ばれ、$k$の予測の任意のサブセットを棄却できる。 2つのリンク関数を導出し、それぞれがすべての部分モジュラー集合関数に対して同一である。

The Lov\'asz hinge is a convex surrogate recently proposed for structured binary classification, in which $k$ binary predictions are made simultaneously and the error is judged by a submodular set function. Despite its wide usage in image segmentation and related problems, its consistency has remained open. We resolve this open question, showing that the Lov\'asz hinge is inconsistent for its desired target unless the set function is modular. Leveraging a recent embedding framework, we instead derive the target loss for which the Lov\'asz hinge is consistent. This target, which we call the structured abstain problem, allows one to abstain on any subset of the $k$ predictions. We derive two link functions, each of which are consistent for all submodular set functions simultaneously.
翻訳日:2022-03-18 11:57:37 公開日:2022-03-17
# (参考訳) ビデオ符号化における学習ループ内フィルタリングの複雑性低減 [全文訳有]

Complexity Reduction of Learned In-Loop Filtering in Video Coding ( http://arxiv.org/abs/2203.08650v2 )

ライセンス: CC BY 4.0
Woody Bayliss, Luka Murn, Ebroul Izquierdo, Qianni Zhang, Marta Mrak(参考訳) ビデオ符号化では、インループフィルタを再構成されたビデオフレームに適用し、その知覚的品質を高める。 従来のインループフィルタは手作りで得られる。 近年,注目機構を利用した畳み込みニューラルネットワークに基づく学習フィルタは,従来の手法により改善されている。 しかしながら、これらの解は典型的には計算コストが著しく高く、実用的な応用の可能性を制限する。 提案手法は,学習したインループフィルタの複雑性低減のために,スポーシティと構造化プルーニングを組み合わせた新しい手法である。 これは、マグニチュード誘導プルーニング、重要なニューロンの識別と除去、微調整という3段階のトレーニングプロセスを通じて行われる。 初期テストにより、ネットワーク性能に最小限の影響を与えることなく、ネットワークパラメータを著しく削減できることがわかった。

In video coding, in-loop filters are applied on reconstructed video frames to enhance their perceptual quality, before storing the frames for output. Conventional in-loop filters are obtained by hand-crafted methods. Recently, learned filters based on convolutional neural networks that utilize attention mechanisms have been shown to improve upon traditional techniques. However, these solutions are typically significantly more computationally expensive, limiting their potential for practical applications. The proposed method uses a novel combination of sparsity and structured pruning for complexity reduction of learned in-loop filters. This is done through a three-step training process of magnitude-guidedweig ht pruning, insignificant neuron identification and removal, and fine-tuning. Through initial tests we find that network parameters can be significantly reduced with a minimal impact on network performance.
翻訳日:2022-03-18 11:18:01 公開日:2022-03-17
# 機械学習を用いた一般社会工学的攻撃に対する脅威検出

Threat Detection for General Social Engineering Attack Using Machine Learning Techniques ( http://arxiv.org/abs/2203.07933v2 )

ライセンス: Link先を確認
Zuoguang Wang, Yimo Ren, Hongsong Zhu, Limin Sun(参考訳) 本稿では、メールフィッシングなど特定のSE攻撃タイプに着目したり制限したりするのではなく、機械学習(ML)技術を用いた一般社会工学(SE)攻撃に対する脅威検出について検討する。 まず,前回の知識グラフ (kg) からより多くのse脅威データを処理し,その後,異なる脅威特徴を抽出し,3つの異なる特徴の組み合わせに対応する新たなデータセットを生成する。 最後に、3つのデータセットを使用して9種類のMLモデルを作成し、訓練し、その性能を27の脅威検出器と270回の実験で比較分析する。 実験の結果と分析の結果は 1) ML手法は一般的なSE攻撃の検出に有効であり,いくつかのMLモデルは極めて効果的である。 2) 生成されたデータセットは利用可能であり、以前の研究で提案されたSEドメインオントロジーはSE攻撃を識別し、SE脅威機能を提供し、将来の研究のためのデータモデルとして使用することができる。 さらに、異なるML検出器とデータセットの特性に関するさらなる結論と分析について論じる。

This paper explores the threat detection for general Social Engineering (SE) attack using Machine Learning (ML) techniques, rather than focusing on or limited to a specific SE attack type, e.g. email phishing. Firstly, this paper processes and obtains more SE threat data from the previous Knowledge Graph (KG), and then extracts different threat features and generates new datasets corresponding with three different feature combinations. Finally, 9 types of ML models are created and trained using the three datasets, respectively, and their performance are compared and analyzed with 27 threat detectors and 270 times of experiments. The experimental results and analyses show that: 1) the ML techniques are feasible in detecting general SE attacks and some ML models are quite effective; ML-based SE threat detection is complementary with KG-based approaches; 2) the generated datasets are usable and the SE domain ontology proposed in previous work can dissect SE attacks and deliver the SE threat features, allowing it to be used as a data model for future research. Besides, more conclusions and analyses about the characteristics of different ML detectors and the datasets are discussed.
翻訳日:2022-03-18 11:07:54 公開日:2022-03-17
# カーネルを31x31にスケールアップする - cnnで大規模カーネル設計を再検討する

Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs ( http://arxiv.org/abs/2203.06717v2 )

ライセンス: Link先を確認
Xiaohan Ding, Xiangyu Zhang, Yizhuang Zhou, Jungong Han, Guiguang Ding, Jian Sun(参考訳) 我々は、現代の畳み込みニューラルネットワーク(cnns)における大規模カーネル設計を再考する。 本稿では、視覚変換器(ViT)の最近の進歩に触発されて、小さなカーネルのスタックではなく、少数の大きな畳み込みカーネルを使うことがより強力なパラダイムであることを示す。 提案する5つのガイドラインは、例えば、高効率な大規模カーネルCNNの設計に再パラメータ化された大深度畳み込みを適用したものである。 本稿では,カーネルサイズが31x31の純粋なCNNアーキテクチャであるRepLKNetを提案する。 RepLKNetは、例えばImageNet上のSwin Transformerやいくつかの典型的なダウンストリームタスクと同等あるいは優れた結果を達成するために、CNNとViTのパフォーマンスギャップを大幅に短縮する。 RepLKNetは、ImageNetで87.8%、ADE20Kで56.0%のmIoUを取得できるなど、ビッグデータや大規模モデルにも優れたスケーラビリティを示している。 さらに本研究では, 小型カーネルCNNとは対照的に, 大型カーネルCNNは高い有効受容場を有し, テクスチャバイアスよりも高い形状バイアスを有することを明らかにした。 コードとモデルはhttps://github.com/m egvii-research/replk net。

We revisit large kernel design in modern convolutional neural networks (CNNs). Inspired by recent advances of vision transformers (ViTs), in this paper, we demonstrate that using a few large convolutional kernels instead of a stack of small kernels could be a more powerful paradigm. We suggested five guidelines, e.g., applying re-parameterized large depth-wise convolutions, to design efficient high-performance large-kernel CNNs. Following the guidelines, we propose RepLKNet, a pure CNN architecture whose kernel size is as large as 31x31, in contrast to commonly used 3x3. RepLKNet greatly closes the performance gap between CNNs and ViTs, e.g., achieving comparable or superior results than Swin Transformer on ImageNet and a few typical downstream tasks, with lower latency. RepLKNet also shows nice scalability to big data and large models, obtaining 87.8% top-1 accuracy on ImageNet and 56.0% mIoU on ADE20K, which is very competitive among the state-of-the-arts with similar model sizes. Our study further reveals that, in contrast to small-kernel CNNs, large-kernel CNNs have much larger effective receptive fields, and higher shape bias rather than texture bias. Code & models at https://github.com/m egvii-research/RepLK Net.
翻訳日:2022-03-18 10:47:22 公開日:2022-03-17
# 半構造化されたWebデータから手続きの階層を明らかにする

Show Me More Details: Discovering Hierarchies of Procedures from Semi-structured Web Data ( http://arxiv.org/abs/2203.07264v2 )

ライセンス: Link先を確認
Shuyan Zhou and Li Zhang and Yue Yang and Qing Lyu and Pengcheng Yin and Chris Callison-Burch and Graham Neubig(参考訳) 手順は本質的に階層的です。 ビデオを作る」には、「カメラを購入する」必要があり、「予算を設定する」必要がある。 このような階層的知識は複雑な手続きを推論するのに重要であるが、既存の仕事の多くは親子関係をモデル化せずに手続きを浅い構造として扱っている。 そこで本研究では,複雑な手順を実行するための手順を文書化した,110k以上の教示記事を含むwebサイトwikihowに基づくオープンドメイン階層的知識ベース(kb)の構築を試みる。 この目的のために,論文中のステップ(例えば「カメラの購入」など)と他の記事(例えば「カメラの選択方法」など)を関連付けてKBを再帰的に構築する,シンプルで効率的な方法を開発した。 提案手法は, 自動評価, 人的判断, 教育ビデオ検索などの下流業務への応用などにより, 強靭なベースラインを著しく上回っている。 部分的なデータのデモはhttps://wikihow-hier archy.github.ioで見ることができる。 コードとデータはhttps://github.com/s huyanzhou/wikihow_hi erarchyにある。

Procedures are inherently hierarchical. To "make videos", one may need to "purchase a camera", which in turn may require one to "set a budget". While such hierarchical knowledge is critical for reasoning about complex procedures, most existing work has treated procedures as shallow structures without modeling the parent-child relation. In this work, we attempt to construct an open-domain hierarchical knowledge-base (KB) of procedures based on wikiHow, a website containing more than 110k instructional articles, each documenting the steps to carry out a complex procedure. To this end, we develop a simple and efficient method that links steps (e.g., "purchase a camera") in an article to other articles with similar goals (e.g., "how to choose a camera"), recursively constructing the KB. Our method significantly outperforms several strong baselines according to automatic evaluation, human judgment, and application to downstream tasks such as instructional video retrieval. A demo with partial data can be found at https://wikihow-hier archy.github.io. The code and the data are at https://github.com/s huyanzhou/wikihow_hi erarchy.
翻訳日:2022-03-18 10:46:34 公開日:2022-03-17
# 内在的神経場:多様体上の学習関数

Intrinsic Neural Fields: Learning Functions on Manifolds ( http://arxiv.org/abs/2203.07967v2 )

ライセンス: Link先を確認
Lukas Koestler, Daniel Grittner, Michael Moeller, Daniel Cremers, Zorah L\"ahner(参考訳) ニューラルフィールドはコンピュータビジョンのコミュニティにおいて、新しい視点合成、幾何再構成、生成モデリングにおいて優れた性能を持つため、大きな注目を集めている。 彼らの利点は、健全な理論的基盤と、現在のディープラーニングフレームワークへの簡単な実装である。 ニューラルネットワークは、例えばテクスチャ再構成のために多様体上の信号に適用されているが、それらの表現はユークリッド空間に形を外在的に埋め込むことに限られている。 外部埋め込みは既知の内在多様体の性質を無視し、非フレキシブル Wrt である。 学習した関数の転送。 これらの制限を克服するために、この研究は多様体上の神経場の新しい多目的表現である内在神経場を導入している。 内在神経場は、ニューラルネットワークの利点とラプラス・ベルトラミ作用素のスペクトル特性を結合する。 理論的には、内在性ニューラルフィールドは外在性ニューラルフィールドフレームワークの望ましい多くの特性を継承するが、等尺性不変性のような追加の内在性を示す。 実験では、内在的な神経場が最先端の画像から高忠実なテクスチャを再構成し、基礎となる多様体の離散化に頑健であることを示す。 変形した形状と異なる形状のテクスチャ転送、ビュー依存の現実画像からのテクスチャ再構築、メッシュや点雲における離散化に依存しない学習など、様々な応用により、内在的ニューラルネットワークの汎用性を実証する。

Neural fields have gained significant attention in the computer vision community due to their excellent performance in novel view synthesis, geometry reconstruction, and generative modeling. Some of their advantages are a sound theoretic foundation and an easy implementation in current deep learning frameworks. While neural fields have been applied to signals on manifolds, e.g., for texture reconstruction, their representation has been limited to extrinsically embedding the shape into Euclidean space. The extrinsic embedding ignores known intrinsic manifold properties and is inflexible wrt. transfer of the learned function. To overcome these limitations, this work introduces intrinsic neural fields, a novel and versatile representation for neural fields on manifolds. Intrinsic neural fields combine the advantages of neural fields with the spectral properties of the Laplace-Beltrami operator. We show theoretically that intrinsic neural fields inherit many desirable properties of the extrinsic neural field framework but exhibit additional intrinsic qualities, like isometry invariance. In experiments, we show intrinsic neural fields can reconstruct high-fidelity textures from images with state-of-the-art quality and are robust to the discretization of the underlying manifold. We demonstrate the versatility of intrinsic neural fields by tackling various applications: texture transfer between deformed shapes & different shapes, texture reconstruction from real-world images with view dependence, and discretization-agnos tic learning on meshes and point clouds.
翻訳日:2022-03-18 10:45:51 公開日:2022-03-17
# 言語課題における視覚知識の活用--相互モーダル知識伝達のための中間事前学習に関する実証的研究

Leveraging Visual Knowledge in Language Tasks: An Empirical Study on Intermediate Pre-training for Cross-modal Knowledge Transfer ( http://arxiv.org/abs/2203.07519v2 )

ライセンス: Link先を確認
Woojeong Jin, Dong-Ho Lee, Chenguang Zhu, Jay Pujara and Xiang Ren(参考訳) 事前学習された言語モデルは、テキストが報告バイアスのためにそのような情報を欠いているため、現実の世界における特性(外観、測定可能な量など)の理解を必要とするタスクにおける人間のパフォーマンスとは程遠い。 本研究では,視覚知識を言語モデルに統合することでそのギャップを埋めることができるか検討する。 本研究は,視覚情報を含む画像キャプションを用いたテキスト知識転送と,視覚言語学習目的の画像とキャプションを用いたクロスモーダル知識転送の2種類の知識伝達について検討した。 この問題を解決するために視覚的な知識を必要とする5つのダウンストリームタスクについて,提案する目的に対して広範な経験的比較を行う。 実験の結果,視覚的知識伝達は低リソース環境と完全教師付き環境の両方で性能を向上できることがわかった。

Pre-trained language models are still far from human performance in tasks that need understanding of properties (e.g. appearance, measurable quantity) and affordances of everyday objects in the real world since the text lacks such information due to reporting bias. In this work, we study whether integrating visual knowledge into a language model can fill the gap. We investigate two types of knowledge transfer: (1) text knowledge transfer using image captions that may contain enriched visual knowledge and (2) cross-modal knowledge transfer using both images and captions with vision-language training objectives. On 5 downstream tasks that may need visual knowledge to solve the problem, we perform extensive empirical comparisons over the presented objectives. Our experiments show that visual knowledge transfer can improve performance in both low-resource and fully supervised settings.
翻訳日:2022-03-18 10:45:26 公開日:2022-03-17
# 教師なしニューラルマシン翻訳のためのトレーニングと推論の間のデータギャップの橋渡し

Bridging the Data Gap between Training and Inference for Unsupervised Neural Machine Translation ( http://arxiv.org/abs/2203.08394v2 )

ライセンス: Link先を確認
Zhiwei He, Xing Wang, Rui Wang, Shuming Shi, Zhaopeng Tu(参考訳) バックトランスレーションはunsupervised Neural Machine Translation(UNMT)の重要なコンポーネントであり、ターゲット単言語データから擬似並列データを生成する。 UNMTモデルは、翻訳されたソースで擬似並列データに基づいて訓練され、推論で自然言語を翻訳する。 トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。 実験を慎重に設計することにより,(1)一般化能力の低下につながるスタイルギャップ(翻訳対自然テキストスタイル),(2)モデルが対象言語に偏った幻覚コンテンツを生成するように誘導するコンテンツギャップの2つのデータギャップの特徴を同定した。 データギャップを狭めるために,疑似並列データ “natural source, translation target} を同時に利用して推論シナリオを模倣するオンライン自己学習手法を提案する。 複数の広く使われている言語対の実験結果から,本手法はスタイルと内容のギャップを緩和することにより,2つの強いベースライン(XLMとMASS)より優れていることが示された。

Back-translation is a critical component of Unsupervised Neural Machine Translation (UNMT), which generates pseudo parallel data from target monolingual data. A UNMT model is trained on the pseudo parallel data with translated source, and translates natural source sentences in inference. The source discrepancy between training and inference hinders the translation performance of UNMT models. By carefully designing experiments, we identify two representative characteristics of the data gap in source: (1) style gap (i.e., translated vs. natural text style) that leads to poor generalization capability; (2) content gap that induces the model to produce hallucination content biased towards the target language. To narrow the data gap, we propose an online self-training approach, which simultaneously uses the pseudo parallel data {natural source, translated target} to mimic the inference scenario. Experimental results on several widely-used language pairs show that our approach outperforms two strong baselines (XLM and MASS) by remedying the style and content gaps.
翻訳日:2022-03-18 10:45:10 公開日:2022-03-17
# KinyaBERT: 形態を意識したKinyarwanda言語モデル

KinyaBERT: a Morphology-aware Kinyarwanda Language Model ( http://arxiv.org/abs/2203.08459v2 )

ライセンス: Link先を確認
Antoine Nzeyimana, Andre Niyongabo Rubungo(参考訳) BERTのような事前訓練された言語モデルは、多くの自然言語処理タスクに取り組むことに成功している。 しかしながら、これらのモデルで一般的に使用される教師なしサブワードトークン化手法(例えば、バイトペアエンコーディングBPE)は、形態的にリッチな言語を扱うのに最適である。 形態素解析器が与えられたとしても、モルヒムを標準のBERTアーキテクチャに内在的にシークエンシングすることは、形態素構成性を捉え、単語相対的構文規則性を表現するのに非効率である。 これらの課題に対処するために, 形態素解析を応用し, 形態素構成性を明確に表現する, 単純かつ効果的な2層BERTアーキテクチャを提案する。 bertの成功にもかかわらず、その評価のほとんどは高リソース言語で行われており、低リソース言語に適用できない。 提案手法を低リソース形態素に富んだKinyaarwanda言語上で評価し,モデルアーキテクチャKinyaBERTを命名した。 KinyaBERTは、名前付きエンティティ認識タスクにおいてF1スコアの2%、機械翻訳GLUEベンチマークの平均スコアの4.3%で、ソリッドベースラインを上回っている。 KinyaBERTファインチューニングはより収束性が高く、翻訳ノイズがあっても複数のタスクに対してより堅牢な結果が得られる。

Pre-trained language models such as BERT have been successful at tackling many natural language processing tasks. However, the unsupervised sub-word tokenization methods commonly used in these models (e.g., byte-pair encoding - BPE) are sub-optimal at handling morphologically rich languages. Even given a morphological analyzer, naive sequencing of morphemes into a standard BERT architecture is inefficient at capturing morphological compositionality and expressing word-relative syntactic regularities. We address these challenges by proposing a simple yet effective two-tier BERT architecture that leverages a morphological analyzer and explicitly represents morphological compositionality. Despite the success of BERT, most of its evaluations have been conducted on high-resource languages, obscuring its applicability on low-resource languages. We evaluate our proposed method on the low-resource morphologically rich Kinyarwanda language, naming the proposed model architecture KinyaBERT. A robust set of experimental results reveal that KinyaBERT outperforms solid baselines by 2% in F1 score on a named entity recognition task and by 4.3% in average score of a machine-translated GLUE benchmark. KinyaBERT fine-tuning has better convergence and achieves more robust results on multiple tasks even in the presence of translation noise.
翻訳日:2022-03-18 10:44:50 公開日:2022-03-17
# RotateQVS: 時間知識グラフ補完のための四元ベクトル空間の回転としてテンポラル情報を表現する

RotateQVS: Representing Temporal Information as Rotations in Quaternion Vector Space for Temporal Knowledge Graph Completion ( http://arxiv.org/abs/2203.07993v2 )

ライセンス: Link先を確認
Kai Chen, Ye Wang, Yitong Li and Aiping Li(参考訳) 時間的要因は、病気の進展や政治状況の発達など、現実的な応用における事実の成長と結びついており、時間的知識グラフ(TKG)の研究は、多くの注目を集めている。 TKGでは、時間性に固有の関係パターンを、時間的事実を横断する表現学習と推論のために研究する必要がある。 しかし,既存の手法では時間的関係パターンをモデル化することは困難であり,解釈可能性に欠けるため,時間とともに進化する関係の内在的な関係を捉えることはできない。 本稿では,四元数ベクトル空間 (rotateqvs) における回転とハミルトン四元数空間における複素ベクトルの関係を表す新しい時空間モデリング手法を提案する。 提案手法は, 対称性, 非対称性, 逆数などのTKGにおける重要な関係パターンをモデル化し, 時間発展関係を理論的に捉えることができる。 提案手法は,4つの時間的知識グラフベンチマーク上でリンク予測タスクの性能を向上させることができることを示す。

Temporal factors are tied to the growth of facts in realistic applications, such as the progress of diseases and the development of political situation, therefore, research on Temporal Knowledge Graph (TKG) attracks much attention. In TKG, relation patterns inherent with temporality are required to be studied for representation learning and reasoning across temporal facts. However, existing methods can hardly model temporal relation patterns, nor can capture the intrinsic connections between relations when evolving over time, lacking of interpretability. In this paper, we propose a novel temporal modeling method which represents temporal entities as Rotations in Quaternion Vector Space (RotateQVS) and relations as complex vectors in Hamilton's quaternion space. We demonstrate our method can model key patterns of relations in TKG, such as symmetry, asymmetry, inverse, and can further capture time-evolved relations by theory. Empirically, we show that our method can boost the performance of link prediction tasks over four temporal knowledge graph benchmarks.
翻訳日:2022-03-18 10:43:47 公開日:2022-03-17
# トレーニングプロトコル問題:トレーニングプロトコル検索による正確なシーンテキスト認識に向けて

Training Protocol Matters: Towards Accurate Scene Text Recognition via Training Protocol Searching ( http://arxiv.org/abs/2203.06696v2 )

ライセンス: Link先を確認
Xiaojie Chu, Yongtao Wang, Chunhua Shen, Jingdong Chen, Wei Chu(参考訳) ディープラーニング時代のシーンテキスト認識(STR)の開発は主にSTRモデルの新しいアーキテクチャに焦点を当てている。 しかし、優れたSTRモデルのトレーニングにおいて等しく重要な役割を果たすトレーニングプロトコル(すなわちSTRモデルのトレーニングにかかわるハイパーパラメータの設定)は、シーンテキスト認識には未熟である。 本研究では,既存のSTRモデルの最適トレーニングプロトコルを探索することで,精度の向上を試みる。 具体的には,新しく設計された探索空間に基づく学習プロトコル探索アルゴリズムと,進化的最適化とプロキシタスクを用いた効率的な探索アルゴリズムを開発した。 実験結果から,本研究の学習プロトコルは,主要なSTRモデルの認識精度を2.7%~3.9%向上できることがわかった。 特に、検索したトレーニングプロトコルでは、TRBA-Netは最先端のSTRモデル(EFIFSTR)よりも2.1%高い精度で、推論速度はCPUとGPUでそれぞれ2.3倍と3.7倍速い。 提案手法の有効性と,本手法で検出したトレーニングプロトコルの一般化能力を示すため,大規模な実験を行った。 コードはhttps://github.com/V DIGPKU/STR_TPSearchで入手できる。

The development of scene text recognition (STR) in the era of deep learning has been mainly focused on novel architectures of STR models. However, training protocol (i.e., settings of the hyper-parameters involved in the training of STR models), which plays an equally important role in successfully training a good STR model, is under-explored for scene text recognition. In this work, we attempt to improve the accuracy of existing STR models by searching for optimal training protocol. Specifically, we develop a training protocol search algorithm, based on a newly designed search space and an efficient search algorithm using evolutionary optimization and proxy tasks. Experimental results show that our searched training protocol can improve the recognition accuracy of mainstream STR models by 2.7%~3.9%. In particular, with the searched training protocol, TRBA-Net achieves 2.1% higher accuracy than the state-of-the-art STR model (i.e., EFIFSTR), while the inference speed is 2.3x and 3.7x faster on CPU and GPU respectively. Extensive experiments are conducted to demonstrate the effectiveness of the proposed method and the generalization ability of the training protocol found by our search method. Code is available at https://github.com/V DIGPKU/STR_TPSearch.
翻訳日:2022-03-18 10:43:28 公開日:2022-03-17
# SimMatch: 類似性マッチングによる半教師あり学習

SimMatch: Semi-supervised Learning with Similarity Matching ( http://arxiv.org/abs/2203.06915v2 )

ライセンス: Link先を確認
Mingkai Zheng, Shan You, Lang Huang, Fei Wang, Chen Qian, Chang Xu(参考訳) ラベル付きデータの少ない学習は、コンピュータビジョンと機械学習研究コミュニティの長年の問題だった。 本稿では,セマンティック類似性とインスタンス類似性を同時に検討するセミ教師付き学習フレームワークSimMatchを提案する。 simmatchでは、一貫性の正規化はセマンティクスレベルとインスタンスレベルの両方に適用される。 同じインスタンスの異なる拡張ビューは、同じクラス予測と、他のインスタンスに対して同様の類似性関係を持つように推奨されている。 次に、ラベル付きメモリバッファをインスタンス化し、インスタンスレベルの真理ラベルを完全に活用し、セマンティックとインスタンスの類似性のギャップを埋める。 最後に,これら2つの類似性を同型に変換できる「textit{unfolding}」と「textit{aggregation}」演算を提案する。 このように、セマンティックとインスタンスの擬似ラベルは相互に伝播し、より高品質で信頼性の高いマッチングターゲットを生成する。 広範な実験結果から、simmatchは、異なるベンチマークデータセットと異なる設定で半教師あり学習タスクのパフォーマンスを向上させることが示されている。 特に400エポックのトレーニングでは、simmatchは67.2\%と74.4\%のtop-1精度を達成し、1\%と10\%のラベル付き例をimagenet上で達成している。 コードと事前訓練されたモデルはhttps://github.com/K yleZheng1997/simmatc h.comで入手できる。

Learning with few labeled data has been a longstanding problem in the computer vision and machine learning research community. In this paper, we introduced a new semi-supervised learning framework, SimMatch, which simultaneously considers semantic similarity and instance similarity. In SimMatch, the consistency regularization will be applied on both semantic-level and instance-level. The different augmented views of the same instance are encouraged to have the same class prediction and similar similarity relationship respected to other instances. Next, we instantiated a labeled memory buffer to fully leverage the ground truth labels on instance-level and bridge the gaps between the semantic and instance similarities. Finally, we proposed the \textit{unfolding} and \textit{aggregation} operation which allows these two similarities be isomorphically transformed with each other. In this way, the semantic and instance pseudo-labels can be mutually propagated to generate more high-quality and reliable matching targets. Extensive experimental results demonstrate that SimMatch improves the performance of semi-supervised learning tasks across different benchmark datasets and different settings. Notably, with 400 epochs of training, SimMatch achieves 67.2\%, and 74.4\% Top-1 Accuracy with 1\% and 10\% labeled examples on ImageNet, which significantly outperforms the baseline methods and is better than previous semi-supervised learning frameworks. Code and pre-trained models are available at https://github.com/K yleZheng1997/simmatc h.
翻訳日:2022-03-18 10:43:07 公開日:2022-03-17
# GPV-Pose:幾何誘導ポイントワイド投票によるカテゴリーレベルのオブジェクトポーズ推定

GPV-Pose: Category-level Object Pose Estimation via Geometry-guided Point-wise Voting ( http://arxiv.org/abs/2203.07918v2 )

ライセンス: Link先を確認
Yan Di, Ruida Zhang, Zhiqiang Lou, Fabian Manhardt, Xiangyang Ji, Nassir Navab and Federico Tombari(参考訳) 6Dオブジェクトのポーズ推定は最近飛躍的な進歩を遂げましたが、ほとんどのメソッドは1つまたは少数の異なるオブジェクトしか扱えず、アプリケーションを制限することができます。 この問題を回避するため、最近、カテゴリレベルのオブジェクトのポーズ推定が改訂され、6Dのポーズを予測し、与えられたオブジェクトクラスから未確認のインスタンスの3Dメトリックサイズを予測することが目的である。 しかし、クラス内形状の変化が激しいため、これははるかに難しい作業である。 この問題に対処するため,我々は,幾何学的洞察を活かした,ロバストなカテゴリレベルのポーズ推定のための新しいフレームワークであるgpv-poseを提案する。 まず,共役信頼度駆動回転表現を導入し,関連する回転行列の幾何認識による復元を可能にする。 第2に,3次元オブジェクトバウンディングボックスのロバスト検索のための,新しい幾何誘導型ポイントワイズ投票パラダイムを提案する。 最後に、これらの異なる出力ストリームを活用することで、幾何的整合項をいくつか適用し、特に非対称なカテゴリのパフォーマンスをさらに向上させることができる。 GPV-Poseは、20FPSのリアルタイム推論速度をほぼ達成しながら、一般的な公開ベンチマークにおいて最先端の競合製品よりも優れた結果をもたらす。

While 6D object pose estimation has recently made a huge leap forward, most methods can still only handle a single or a handful of different objects, which limits their applications. To circumvent this problem, category-level object pose estimation has recently been revamped, which aims at predicting the 6D pose as well as the 3D metric size for previously unseen instances from a given set of object classes. This is, however, a much more challenging task due to severe intra-class shape variations. To address this issue, we propose GPV-Pose, a novel framework for robust category-level pose estimation, harnessing geometric insights to enhance the learning of category-level pose-sensitive features. First, we introduce a decoupled confidence-driven rotation representation, which allows geometry-aware recovery of the associated rotation matrix. Second, we propose a novel geometry-guided point-wise voting paradigm for robust retrieval of the 3D object bounding box. Finally, leveraging these different output streams, we can enforce several geometric consistency terms, further increasing performance, especially for non-symmetric categories. GPV-Pose produces superior results to state-of-the-art competitors on common public benchmarks, whilst almost achieving real-time inference speed at 20 FPS.
翻訳日:2022-03-18 10:42:40 公開日:2022-03-17
# graph flow:二重効率医用画像セグメンテーションのためのクロスレイヤーグラフフロー蒸留

Graph Flow: Cross-layer Graph Flow Distillation for Dual-Efficient Medical Image Segmentation ( http://arxiv.org/abs/2203.08667v2 )

ライセンス: Link先を確認
Wenxuan Zou, Muyi Sun(参考訳) 深層畳み込みニューラルネットワークの開発により、医療画像のセグメンテーションは近年、一連のブレークスルーを達成している。 しかし、高性能畳み込みニューラルネットワークは、常に多くのパラメータと高価な計算コストを意味し、臨床シナリオの応用を妨げる。 一方で、大規模な注釈付き医用画像データセットの不足は、高性能ネットワークの適用をさらに妨げている。 そこで本研究では,ネットワーク効率とアノテーション効率のよい医用画像セグメンテーションにおいて,クロスレイヤーグラフフロー知識を活用すべく,新しい包括的知識蒸留法であるgraph flowを提案する。 特に,グラフフロー蒸留では,異なる層間のチャネルワイド・サリエンス特性のフローを測定するために,変動グラフを構築している。 次に、変動グラフに含まれる知識を、よく訓練された教師ネットワークから訓練されていないコンパクトな生徒ネットワークに転送する。 さらに教師ネットワークの知識を洗練するために教師なしのパラフレーザーモジュールが設計されており、これは訓練手順の安定化にも有用である。 さらに, 対向蒸留とバニラロジット蒸留を統合した統合蒸留の枠組みを構築し, それぞれが最終性能の向上を図っている。 その結果,胃癌分画データセットとsynapse multi-organ segmentationデータセットを用いた広範な実験により,これらの異なるモダリティおよびマルチカテゴリの医療画像データセットにおいて,最先端のパフォーマンスを実現する方法の著明な性能が示された。 さらに,デュアル効率な医用画像分割のための半教師付きパラダイムによるグラフフローの有効性を示す。

With the development of deep convolutional neural networks, medical image segmentation has achieved a series of breakthroughs in recent years. However, the higher-performance convolutional neural networks always mean numerous parameters and expensive computation costs, which will hinder the applications in clinical scenarios. Meanwhile, the scarceness of large-scale annotated medical image datasets further impedes the application of high-performance networks. To tackle these problems, we propose Graph Flow, a novel comprehensive knowledge distillation method, to exploit the cross-layer graph flow knowledge for both network-efficient and annotation-efficient medical image segmentation. Specifically, our Graph Flow Distillation constructs a variation graph which is employed to measure the flow of channel-wise salience features between different layers. Next, the knowledge included in the variation graph is transferred from a well-trained cumbersome teacher network to a non-trained compact student network. In addition, an unsupervised Paraphraser Module is designed to refine the knowledge of the teacher network, which is also beneficial for the stabilization of training procedure. Furthermore, we build a unified distillation framework by integrating the adversarial distillation and the vanilla logits distillation, which can further promote the final performance respectively. As a result, extensive experiments conducted on Gastric Cancer Segmentation Dataset and Synapse Multi-organ Segmentation Dataset demonstrate the prominent ability of our method which achieves state-of-the-art performance on these different-modality and multi-category medical image datasets. Moreover, we demonstrate the effectiveness of our Graph Flow through a new semi-supervised paradigm for dual-efficient medical image segmentation.
翻訳日:2022-03-18 10:42:16 公開日:2022-03-17
# Motif Mining:リミックス画像の検索と要約

Motif Mining: Finding and Summarizing Remixed Image Content ( http://arxiv.org/abs/2203.08327v2 )

ライセンス: Link先を確認
William Theisen, Daniel Gonzalez Cedre, Zachariah Carmichael, Daniel Moreira, Tim Weninger, and Walter Scheirer(参考訳) インターネットでは、画像はもはや静的ではなく、動的コンテンツになっている。 カメラと使いやすい編集ソフトウェアを備えたスマートフォンが利用可能になったことにより、画像はオンザフライでリミックス(再生、編集、他のコンテンツとのリミックス)でき、また、そのプロセスを再現できる世界規模のオーディエンスと組み合わせることができる。 デジタルアートからミームまで、画像の時間的進化は、デジタルヒューマニスト、社会科学者、メディア法医学の専門家にとって重要な研究テーマとなっている。 しかし、コンピュータビジョンの典型的なデータセットは静的なコンテンツで構成されているため、リミックスされたコンテンツを分析する自動アルゴリズムの開発は限られている。 本稿では,未ラベルおよび未分類データの大規模なコレクションにおいて,リミックス画像の検索と要約を行うMotif Miningのアイデアを紹介する。 本稿では,この概念を形式化し,リファレンス実装を導入する。 ロシア・ウクライナ紛争における情報戦争に関連する新たなデータセットを含む、3つのミームスタイルのデータセットで実験が行われている。 提案したモチーフマイニング手法は、類似したアプローチと比較して、人間の観察者の好みや期待とより密接に一致した関連するリミックスコンテンツを特定することができる。

On the internet, images are no longer static; they have become dynamic content. Thanks to the availability of smartphones with cameras and easy-to-use editing software, images can be remixed (i.e., redacted, edited, and recombined with other content) on-the-fly and with a world-wide audience that can repeat the process. From digital art to memes, the evolution of images through time is now an important topic of study for digital humanists, social scientists, and media forensics specialists. However, because typical data sets in computer vision are composed of static content, the development of automated algorithms to analyze remixed content has been limited. In this paper, we introduce the idea of Motif Mining - the process of finding and summarizing remixed image content in large collections of unlabeled and unsorted data. In this paper, this idea is formalized and a reference implementation is introduced. Experiments are conducted on three meme-style data sets, including a newly collected set associated with the information war in the Russo-Ukrainian conflict. The proposed motif mining approach is able to identify related remixed content that, when compared to similar approaches, more closely aligns with the preferences and expectations of human observers.
翻訳日:2022-03-18 10:41:47 公開日:2022-03-17