このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211014となっている論文です。

PDF登録状況(公開日: 20211014)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) EdgeML: ネットワークによるワイヤレスエッジ上のフェデレーション学習を目指す [全文訳有]

EdgeML: Towards Network-Accelerated Federated Learning over Wireless Edge ( http://arxiv.org/abs/2111.09410v1 )

ライセンス: CC BY 4.0
Pinyarash Pinyoanuntapong, Prabhu Janakaraj, Ravikumar Balakrishnan, Minwoo Lee, Chen Chen, and Pu Wang(参考訳) フェデレーション・ラーニング(federated learning, fl)は、次世代aiシステムのための分散機械学習技術で、複数のワーカ、すなわちエッジデバイスが、プライバシの漏洩を防ぐためにデータをローカルに保持しながら共有グローバルモデルを共同学習する。 無線マルチホップネットワーク上でFLを実現することで、AIを民主化し、コスト効率の良い方法でアクセスできるようにする。 しかし、ノイズの多い帯域幅制限のマルチホップ無線接続は、FL収束速度を著しく低下させる遅延と遊牧モデルの更新につながる可能性がある。 そこで本稿では,マルチホップフェデレーションネットワークの性能を最適化することにより,無線エッジ上でのfl収束を高速化することを目的とする。 特に、FL収束最適化問題はマルコフ決定過程(MDP)として定式化される。 このようなMDPを解決するために、マルチエージェント強化学習(MA-RL)アルゴリズムとドメイン固有のアクション空間精製スキームを開発し、遅延最小転送経路をオンラインで学習し、エッジデバイス(例えばワーカ)とリモートサーバ間のモデル交換遅延を最小限にする。 提案手法を検証するためにFedEdgeを開発し実装し,マルチホップ無線エッジコンピューティングネットワーク上でのFLの文献化における最初の実験的フレームワークである。 FedEdgeは、RLベースのシステム最適化手法とともに、新しいFLアルゴリズムのプロトタイプを高速に作成、デプロイ、評価することができる。 さらに、広く採用されているLinux無線ルータとMLコンピューティングノードをカスタマイズして物理実験用テストベッドを実装し、本テストベッドにおける実験結果から、提案したネットワーク高速化FLシステムは、製品グレードの商用無線ネットワークプロトコルであるBATMAN-Advによって強化されたFLシステムと比較して、FL収束速度を実用的かつ有意に向上させることができることが示された。

Federated learning (FL) is a distributed machine learning technology for next-generation AI systems that allows a number of workers, i.e., edge devices, collaboratively learn a shared global model while keeping their data locally to prevent privacy leakage. Enabling FL over wireless multi-hop networks can democratize AI and make it accessible in a cost-effective manner. However, the noisy bandwidth-limited multi-hop wireless connections can lead to delayed and nomadic model updates, which significantly slows down the FL convergence speed. To address such challenges, this paper aims to accelerate FL convergence over wireless edge by optimizing the multi-hop federated networking performance. In particular, the FL convergence optimization problem is formulated as a Markov decision process (MDP). To solve such MDP, multi-agent reinforcement learning (MA-RL) algorithms along with domain-specific action space refining schemes are developed, which online learn the delay-minimum forwarding paths to minimize the model exchange latency between the edge devices (i.e., workers) and the remote server. To validate the proposed solutions, FedEdge is developed and implemented, which is the first experimental framework in the literature for FL over multi-hop wireless edge computing networks. FedEdge allows us to fast prototype, deploy, and evaluate novel FL algorithms along with RL-based system optimization methods in real wireless devices. Moreover, a physical experimental testbed is implemented by customizing the widely adopted Linux wireless routers and ML computing nodes.Finally, our experimentation results on the testbed show that the proposed network-accelerated FL system can practically and significantly improve FL convergence speed, compared to the FL system empowered by the production-grade commercially available wireless networking protocol, BATMAN-Adv.
翻訳日:2021-11-21 17:35:46 公開日:2021-10-14
# ポリプ検出用変圧器

Transformer for Polyp Detection ( http://arxiv.org/abs/2111.07918v1 )

ライセンス: Link先を確認
Shijie Liu, Hongyu Zhou, Xiaozhou Shi, Junwen Pan(参考訳) 近年、TransformerはNLPタスクでますますうまく機能しているため、多くの研究者がTransformer構造を視覚タスクに移植し、NLPタスクとCVタスクのギャップを埋めている。 本研究では,検出トラックのための深層学習ネットワークの評価を行う。 基底真理はマスクであるため、現在の検出法とセグメンテーション法の両方を試すことができる。 実験により,DETRをベースラインとして選択する。 さらに、データセットに適合するように列車戦略を変更します。

In recent years, as the Transformer has performed increasingly well on NLP tasks, many researchers have ported the Transformer structure to vision tasks ,bridging the gap between NLP and CV tasks. In this work, we evaluate some deep learning network for the detection track. Because the ground truth is mask, so we can try both the current detection and segmentation method. We select the DETR as our baseline through experiment. Besides, we modify the train strategy to fit the dataset.
翻訳日:2021-11-21 15:06:31 公開日:2021-10-14
# CORAA:ブラジルポルトガル語における音声認識のための手作業による自発・準備音声の大規模コーパス

CORAA: a large corpus of spontaneous and prepared speech manually validated for speech recognition in Brazilian Portuguese ( http://arxiv.org/abs/2110.15731v1 )

ライセンス: Link先を確認
Arnaldo Candido Junior, Edresson Casanova, Anderson Soares, Frederico Santos de Oliveira, Lucas Oliveira, Ricardo Corso Fernandes Junior, Daniel Peixoto Pinto da Silva, Fernando Gorgulho Fayet, Bruno Baldissera Carlotto, Lucas Rafael Stefanel Gris, Sandra Maria Alu\'isio(参考訳) 音声認識(ASR)は複雑で困難な課題である。 近年、この地域には大きな進歩があった。 特にブラジルポルトガル語(bp)言語では、2020年後半まで約376時間のasrタスクが利用可能であった。 2021年初頭に新しいデータセットがリリースされると、この数は574時間に増加した。 しかし、既存のリソースは読み書きと準備された音声のみを含む音声で構成されている。 自然発話を含むデータセットの欠如は、異なるASRアプリケーションに必須である。 本稿では,CORAA (Corpus of Annotated Audios) v1について述べる。 291時間で、検証済みのペア(オーディオ書き起こし)を含むBPのASR用データセットが公開されている。 CORAAにはヨーロッパのポルトガル語の音声(4.69時間)も含まれている。 We present two public ASR model based on Wav2Vec 2.0 XLSR-53 and fine-tuned over CORAA。 我々の最良のモデルは、CORAAテストセットで27.35%、Common Voiceテストセットで16.01%のワードエラー率を達成した。 文字誤り率の測定では, CORAA と Common Voice でそれぞれ 14.26% と 5.45% を得た。 CORAAコーパスは、自然発声による現象を伴うBPのASRモデルの改善と、ポルトガルでのASR研究の動機付けのために組み立てられた。 すべてのコーパスはCC BY-NC-ND 4.0ライセンスの下でhttps://github.com/n ilc-nlp/CORAAで公開されている。

Automatic Speech recognition (ASR) is a complex and challenging task. In recent years, there have been significant advances in the area. In particular, for the Brazilian Portuguese (BP) language, there were about 376 hours public available for ASR task until the second half of 2020. With the release of new datasets in early 2021, this number increased to 574 hours. The existing resources, however, are composed of audios containing only read and prepared speech. There is a lack of datasets including spontaneous speech, which are essential in different ASR applications. This paper presents CORAA (Corpus of Annotated Audios) v1. with 291 hours, a publicly available dataset for ASR in BP containing validated pairs (audio-transcription ). CORAA also contains European Portuguese audios (4.69 hours). We also present two public ASR models based on Wav2Vec 2.0 XLSR-53 and fine-tuned over CORAA. Our best model achieved a Word Error Rate of 27.35% on CORAA test set and 16.01% on Common Voice test set. When measuring the Character Error Rate, we obtained 14.26% and 5.45% for CORAA and Common Voice, respectively. CORAA corpora were assembled to both improve ASR models in BP with phenomena from spontaneous speech and motivate young researchers to start their studies on ASR for Portuguese. All the corpora are publicly available at https://github.com/n ilc-nlp/CORAA under the CC BY-NC-ND 4.0 license.
翻訳日:2021-11-07 11:38:50 公開日:2021-10-14
# (参考訳) AI三部作:AI教育における計算的、概念的、数学的表現 [全文訳有]

The AI Triplet: Computational, Conceptual, and Mathematical Representations in AI Education ( http://arxiv.org/abs/2110.09290v1 )

ライセンス: CC BY 4.0
Maithilee Kunda(参考訳) aiの専門知識は計算、概念、数学的知識と表現を統合する必要がある。 我々はこの三重項を,過去40年間の化学教育に影響を与えた「化学三重項」に類似した「AI三重項」として提案する。 この三重項の理論的根拠と、木探索や勾配降下といったAIコースで一般的に教えられているトピックへの写像について説明する。 また,化学教育における化学三重項の影響と同様に,ai三重項を考慮すれば,ai教育における障害,すなわち三重項間の移動におけるエキスパートレベルの柔軟性にアプローチするための学生学習の足場となる可能性を示す最初の例を提案する。

Expertise in AI requires integrating computational, conceptual, and mathematical knowledge and representations. We propose this trifecta as an "AI triplet," similar in spirit to the "chemistry triplet" that has influenced the past four decades of chemistry education. We describe a rationale for this triplet and how it maps onto topics commonly taught in AI courses, such as tree search and gradient descent. Also, similar to impacts of the chemistry triplet on chemistry education, we suggest an initial example of how considering the AI triplet may help pinpoint obstacles in AI education, i.e., how student learning might be scaffolded to approach expert-level flexibility in moving between the points of the triplet.
翻訳日:2021-10-22 06:38:21 公開日:2021-10-14
# (参考訳) 1次元最適線形近似のためのニューラルネットワークの学習 [全文訳有]

Training Neural Networks for Solving 1-D Optimal Piecewise Linear Approximation ( http://arxiv.org/abs/2110.08259v1 )

ライセンス: CC BY 4.0
Hangcheng Dong, Jingxiao Liao, Yan Wang, Yixin Chen, Bingguo Liu, Dong Ye and Guodong Liu(参考訳) 近年,深層学習の解釈性が注目されている。 特徴可視化やサリエンシマップ,モデルの蒸留などによって,ニューラルネットワークの説明方法が数多く試みられている。 しかし,これらの手法がニューラルネットワークの固有特性を明らかにすることは困難である。 本研究では,1次元最適ピースワイド線形近似(PWLA)問題について検討し,格子ニューラルネットワーク(LNN)を設計したニューラルネットワークと関連づけた。 我々は,(1)pwla問題の最適解のキャラクタは何か? 2) LNN は大域的最適に収束できるか? (3)LNNは局所最適値に収束できるか? (4)LNNはPWLA問題を解くことができるか? 我々の主な貢献は、PWLA問題の最適解を特徴づける定理を提案し、それを解決するためのLNN法を提案することである。 提案したLNNを近似タスクで評価し,LNNの性能向上のための経験的手法を適用した。 実験の結果,LNN法は最先端手法と競合することがわかった。

Recently, the interpretability of deep learning has attracted a lot of attention. A plethora of methods have attempted to explain neural networks by feature visualization, saliency maps, model distillation, and so on. However, it is hard for these methods to reveal the intrinsic properties of neural networks. In this work, we studied the 1-D optimal piecewise linear approximation (PWLA) problem, and associated it with a designed neural network, named lattice neural network (LNN). We asked four essential questions as following: (1) What are the characters of the optimal solution of the PWLA problem? (2) Can an LNN converge to the global optimum? (3) Can an LNN converge to the local optimum? (4) Can an LNN solve the PWLA problem? Our main contributions are that we propose the theorems to characterize the optimal solution of the PWLA problem and present the LNN method for solving it. We evaluated the proposed LNNs on approximation tasks, forged an empirical method to improve the performance of LNNs. The experiments verified that our LNN method is competitive with the start-of-the-art method.
翻訳日:2021-10-22 06:21:23 公開日:2021-10-14
# (参考訳) モノトン深部平衡モデルの効果的な証明 [全文訳有]

Effective Certification of Monotone Deep Equilibrium Models ( http://arxiv.org/abs/2110.08260v1 )

ライセンス: CC BY 4.0
Mark Niklas M\"uller, Robin Staab, Marc Fischer, Martin Vechev(参考訳) Monotone Operator Equilibrium Models (monDEQs) は、強力な深い均衡パラダイムと収束保証を組み合わせたモデルのクラスである。 さらに、敵の摂動に対するその固有の頑健性は、その感受性を有望な研究方向とする。 残念ながら、既存のアプローチは不正確かスケーラビリティに厳しい制限がある。 本稿では,2つの主要なアイデアに基づいた,スケーラブルで高精度なMonDEQ検証手法を提案する。 (i)効率的な包接チェックを可能にする新規凸緩和法、 (2)具体的入力ではなく集合上のMonDEQの心における固定点演算を特徴付ける非自明な数学的洞察。 挑戦的な$\ell_\infty$摂動に対する検証器の広範な評価は、同じネットワーク上で25%高い認証精度が得られると同時に、速度(2桁)とスケーラビリティ(桁)で最先端の性能を上回ることを示した。

Monotone Operator Equilibrium Models (monDEQs) represent a class of models combining the powerful deep equilibrium paradigm with convergence guarantees. Further, their inherent robustness to adversarial perturbations makes investigating their certifiability a promising research direction. Unfortunately, existing approaches are either imprecise or severely limited in scalability. In this work, we propose the first scalable and precise monDEQ verifier, based on two key ideas: (i) a novel convex relaxation enabling efficient inclusion checks, and (ii) non-trivial mathematical insights characterizing the fixpoint operations at the heart of monDEQs on sets rather than concrete inputs. An extensive evaluation of our verifier on the challenging $\ell_\infty$ perturbations demonstrates that it exceeds state-of-the-art performance in terms of speed (two orders of magnitude) and scalability (an order of magnitude) while yielding 25% higher certified accuracies on the same networks.
翻訳日:2021-10-22 05:59:28 公開日:2021-10-14
# CT-SGAN:CTトモグラフィ合成ガン

CT-SGAN: Computed Tomography Synthesis GAN ( http://arxiv.org/abs/2110.09288v1 )

ライセンス: Link先を確認
Ahmad Pesaranghader, Yiping Wang, and Mohammad Havaei(参考訳) 深層学習モデルのトレーニングの成功には、データの多様性が不可欠だ。 胸部CTスキャンの小さなデータセットを用いて,大規模3次元合成CTスキャンボリューム(\geq 224\times 224\times 224$)を生成するCT-SGANモデルを提案する。 ct-sganは、医療画像における機械学習に直面する2つの大きな課題に対して魅力的な解決策を提供している: 少数の与えられたi.i.d.トレーニングデータと、より大規模で多様なデータセットを迅速に取得することを防ぐ患者データの共有に関する制限である。 Fr'echet Inception Distance や Inception Score などの様々な指標を用いて,生成した画像の忠実度を質的,定量的に評価した。 さらに,CT-SGANは,大量の合成データに基づいて分類器を事前訓練することにより,肺結節検出精度を著しく向上できることを示した。

Diversity in data is critical for the successful training of deep learning models. Leveraged by a recurrent generative adversarial network, we propose the CT-SGAN model that generates large-scale 3D synthetic CT-scan volumes ($\geq 224\times224\times22 4$) when trained on a small dataset of chest CT-scans. CT-SGAN offers an attractive solution to two major challenges facing machine learning in medical imaging: a small number of given i.i.d. training data, and the restrictions around the sharing of patient data preventing to rapidly obtain larger and more diverse datasets. We evaluate the fidelity of the generated images qualitatively and quantitatively using various metrics including Fr\'echet Inception Distance and Inception Score. We further show that CT-SGAN can significantly improve lung nodule detection accuracy by pre-training a classifier on a vast amount of synthetic data.
翻訳日:2021-10-19 20:11:23 公開日:2021-10-14
# 新型コロナウイルスX線画像分類のためのディープラーニングアルゴリズムの比較解析

Comparative Analysis of Deep Learning Algorithms for Classification of COVID-19 X-Ray Images ( http://arxiv.org/abs/2110.09294v1 )

ライセンス: Link先を確認
Unsa Maheen, Khawar Iqbal Malik, Gohar Ali(参考訳) 新型コロナウイルスは中国・武漢市で2019年12月に初めて発生し、世界中で急速に広がった。 世界経済、教育、社会、日常生活、そして人間の健康全般に非常に有害な影響を及ぼす。 疾患の早期拡大を最初に制限するには、コロナ患者をできるだけ早く調査することが主な困難である。 自動ツールキットが入手できないため、補充診断ツールの必要性が高まっている。 これまでの研究では、この種の画像が新型コロナウイルスに関連する重要な詳細を持っていることが示唆された。 改良型人工知能(AI)システムと無線画像の併用は、このウイルスの正確かつ正確な解決策として有益であり、遠くの村の専門医の不足を克服するのにも有用である。 本研究は, 胸部X線画像を用いた新型コロナウイルス検出の異なる手法を解析し, トレーニング済みCNNモデルであるAlexNet, VGG-16, MobileNet-V2, SqeezeNet, ResNet-34, ResNet-50, COVIDX-Netについて検討した。 本研究では,ResNet-34を用いた事前訓練CNNモデルにより,98.33,96.77%の精度,98.36F1スコアが得られた。 我々のモデルは、新型コロナウイルス患者の迅速なスクリーニングのために、研究者がCNNモデルを微調整するのに役立つかもしれない。

The Coronavirus was first emerged in December, in the city of China named Wuhan in 2019 and spread quickly all over the world. It has very harmful effects all over the global economy, education, social, daily living and general health of humans. To restrict the quick expansion of the disease initially, main difficulty is to explore the positive corona patients as quickly as possible. As there are no automatic tool kits accessible the requirement for supplementary diagnostic tools has risen up. Previous studies have findings acquired from radiological techniques proposed that this kind of images have important details related to the coronavirus. The usage of modified Artificial Intelligence (AI) system in combination with radio-graphical images can be fruitful for the precise and exact solution of this virus and can also be helpful to conquer the issue of deficiency of professional physicians in distant villages. In our research, we analyze the different techniques for the detection of COVID-19 using X-Ray radiographic images of the chest, we examined the different pre-trained CNN models AlexNet, VGG-16, MobileNet-V2, SqeezeNet, ResNet-34, ResNet-50 and COVIDX-Net to correct analytics for classification system of COVID-19. Our study shows that the pre trained CNN Model with ResNet-34 technique gives the higher accuracy rate of 98.33, 96.77% precision, and 98.36 F1-score, which is better than other CNN techniques. Our model may be helpful for the researchers to fine train the CNN model for the the quick screening of COVID patients.
翻訳日:2021-10-19 15:34:32 公開日:2021-10-14
# 階層的な強化学習フレームワーク「いつ何を問うべきか」

Learning When and What to Ask: a Hierarchical Reinforcement Learning Framework ( http://arxiv.org/abs/2110.08258v1 )

ライセンス: Link先を確認
Khanh Nguyen, Yonatan Bisk, Hal Daum\'e III(参考訳) 信頼できるaiエージェントは、適切な判断を行うのに十分な知識がないと感じるとき、彼らの知識の限界に注意を払い、人間に相談する必要がある。 我々は,人間がいつ追加情報を要求するか,どのような情報を要求するのに役立つかを決めるための階層的強化学習フレームワークを考案する。 我々のフレームワークは、エージェントがアシスタントと対話してタスクを遂行する際の知識を活用することによって、部分的に観測されたマルコフ決定プロセス(POMDP)を拡張します。 シミュレーションされた人間支援ナビゲーション問題の結果は,本手法で学習したインタラクションポリシによって,タスクを単独で実行した場合に比べて,タスク成功率を最大7倍に向上させる。 インタラクションポリシーは効率的で、タスク実行中に取られたアクションの4分の1だけが情報に対する要求である。 我々は,階層的政策構造による学習のメリットと課題を分析し,今後の作業への方向性を提案する。

Reliable AI agents should be mindful of the limits of their knowledge and consult humans when sensing that they do not have sufficient knowledge to make sound decisions. We formulate a hierarchical reinforcement learning framework for learning to decide when to request additional information from humans and what type of information would be helpful to request. Our framework extends partially-observed Markov decision processes (POMDPs) by allowing an agent to interact with an assistant to leverage their knowledge in accomplishing tasks. Results on a simulated human-assisted navigation problem demonstrate the effectiveness of our framework: aided with an interaction policy learned by our method, a navigation policy achieves up to a 7x improvement in task success rate compared to performing tasks only by itself. The interaction policy is also efficient: on average, only a quarter of all actions taken during a task execution are requests for information. We analyze benefits and challenges of learning with a hierarchical policy structure and suggest directions for future work.
翻訳日:2021-10-19 15:11:11 公開日:2021-10-14
# (参考訳) 学習意味論:効果的な6g通信の機会 [全文訳有]

Learning Semantics: An Opportunity for Effective 6G Communications ( http://arxiv.org/abs/2110.08049v1 )

ライセンス: CC BY 4.0
Mohamed Sana and Emilio Calvanese Strinati(参考訳) 近年,セマンティクス通信が将来の6gネットワークのキーイネーブラとして期待されている。 シャノンの情報理論に遡れば、通信の目的は、その意味に関係なく送信されたメッセージの正しい受信を保証することである。 しかし、一般的には、コミュニケーションが意味を伝えるために起こると、受信側が送信されたメッセージに対する理解が重要であり、必ずしも正しい復元ではない。 したがって、意味的コミュニケーションは新しいパラダイムを導入する: 受信者が意図する意味を捉えるのに十分な情報だけを送信することは、通信帯域を大幅に節約することができる。 そこで本研究では,5Gネットワークを越えたセマンティックコミュニケーションの機会を探究する。 特に、意味的圧縮の利点に焦点を合わせます。 我々は、セマンティックメッセージを、受信側で解釈しなければならない「意味」に基づくデータから学習した、よくできたシンボルのシーケンスとして参照する。 これは、推論ユニット、ここでは人工的な知識ベース:特定のアプリケーションの象徴的な知識表現を必要とする。 そこで本研究では,意味記号の表現学習を効果的に行うための新しいアーキテクチャを提案する。 まず, 意味的エンコーダとデコーダの効果的な学習を支援する目的関数の設計と理論的側面について考察する。 最終的に、特に送信者と受信者が異なる言語を話す場合に、テキスト送信のシナリオに対して有望な数値結果を示す。

Recently, semantic communications are envisioned as a key enabler of future 6G networks. Back to Shannon's information theory, the goal of communication has long been to guarantee the correct reception of transmitted messages irrespective of their meaning. However, in general, whenever communication occurs to convey a meaning, what matters is the receiver's understanding of the transmitted message and not necessarily its correct reconstruction. Hence, semantic communications introduce a new paradigm: transmitting only relevant information sufficient for the receiver to capture the meaning intended can save significant communication bandwidth. Thus, this work explores the opportunity offered by semantic communications for beyond 5G networks. In particular, we focus on the benefit of semantic compression. We refer to semantic message as a sequence of well-formed symbols learned from the "meaning" underlying data, which have to be interpreted at the receiver. This requires a reasoning unit, here artificial, on a knowledge base: a symbolic knowledge representation of the specific application. Therefore, we present and detail a novel architecture that enables representation learning of semantic symbols for effective semantic communications. We first discuss theoretical aspects and successfully design objective functions, which help learn effective semantic encoders and decoders. Eventually, we show promising numerical results for the scenario of text transmission, especially when the sender and receiver speak different languages.
翻訳日:2021-10-19 11:36:13 公開日:2021-10-14
# (参考訳) パッチレベル分類ラベルを用いた病理組織分節の多層解析 [全文訳有]

Multi-Layer Pseudo-Supervision for Histopathology Tissue Semantic Segmentation using Patch-level Classification Labels ( http://arxiv.org/abs/2110.08048v1 )

ライセンス: CC BY 4.0
Chu Han, Jiatai Lin, Jinhai Mai, Yi Wang, Qingling Zhang, Bingchao Zhao, Xin Chen, Xipeng Pan, Zhenwei Shi, Xiaowei Xu, Su Yao, Lixu Yan, Huan Lin, Zeyan Xu, Xiaomei Huang, Guoqiang Han, Changhong Liang, Zaiyi Liu(参考訳) 組織レベルのセマンティクスセグメンテーションは、計算病理学における重要なステップである。 完全教師付きモデルは、高濃度のピクセルレベルのアノテーションで既に優れたパフォーマンスを達成している。 しかし、ギガピクセル全体のスライド画像にそのようなラベルを描くのは非常に高価で時間がかかる。 本稿では,組織病理画像の組織意味的セグメンテーションを実現するために,パッチレベルの分類ラベルのみを用いる。 分類とセグメンテーションフェーズを含む2段階モデルを提案した。 分類段階において,パッチレベルラベルを用いて擬似マスクを生成するCAMモデルを提案した。 セグメンテーション段階では,提案する多層擬似スーパービジョンにより組織意味セグメンテーションを達成した。 画素レベルのアノテーションとパッチレベルのアノテーションの間の情報ギャップを減らすために、いくつかの技術革新が提案されている。 本稿では,肺腺癌 (luad-histoseg) に対するweakly supervised semantic segmentation (wsss) データセットを導入した。 提案モデルを2つのデータセット上で評価するために,いくつかの実験を行った。 提案モデルは2つの最先端WSSSアプローチより優れている。 完全教師付きモデルでは、MIoU と FwIoU の約 2 % の差しか持たない量的および定性的な結果が得られることに注意。 手動ラベリングと比較することにより、アノテーションの時間を数時間から数分に短縮できる。 ソースコードは \url{https://github.com/c huhan89/wsss-tissue} で入手できる。

Tissue-level semantic segmentation is a vital step in computational pathology. Fully-supervised models have already achieved outstanding performance with dense pixel-level annotations. However, drawing such labels on the giga-pixel whole slide images is extremely expensive and time-consuming. In this paper, we use only patch-level classification labels to achieve tissue semantic segmentation on histopathology images, finally reducing the annotation efforts. We proposed a two-step model including a classification and a segmentation phases. In the classification phase, we proposed a CAM-based model to generate pseudo masks by patch-level labels. In the segmentation phase, we achieved tissue semantic segmentation by our proposed Multi-Layer Pseudo-Supervision. Several technical novelties have been proposed to reduce the information gap between pixel-level and patch-level annotations. As a part of this paper, we introduced a new weakly-supervised semantic segmentation (WSSS) dataset for lung adenocarcinoma (LUAD-HistoSeg). We conducted several experiments to evaluate our proposed model on two datasets. Our proposed model outperforms two state-of-the-art WSSS approaches. Note that we can achieve comparable quantitative and qualitative results with the fully-supervised model, with only around a 2\% gap for MIoU and FwIoU. By comparing with manual labeling, our model can greatly save the annotation time from hours to minutes. The source code is available at: \url{https://github.com/C huHan89/WSSS-Tissue}.
翻訳日:2021-10-19 11:21:09 公開日:2021-10-14
# (参考訳) HumBugDB: 大規模音響モスキートデータセット

HumBugDB: A Large-scale Acoustic Mosquito Dataset ( http://arxiv.org/abs/2110.07607v1 )

ライセンス: CC BY 4.0
Ivan Kiskin, Marianne Sinka, Adam D. Cobb, Waqas Rafique, Lawrence Wang, Davide Zilli, Benjamin Gutteridge, Rinita Dam, Theodoros Marinos, Yunpeng Li, Dickson Msaky, Emmanuel Kaindoa, Gerard Killeen, Eva Herreros-Moya, Kathy J. Willis, Stephen J. Roberts(参考訳) 本稿では,蚊の飛行中を連続的に追跡した音響記録の大規模マルチ種データセットを提案する。 専門的にラベル付けされ、正確にタグづけされた20時間のオーディオ録音を提示する。 記録の18時間には36種のアノテーションが含まれている。 蚊はマラリア、デング熱、黄熱病などの病気の媒介者として知られている。 このデータセットの収集は、蚊の音響を利用してアウトブレイクを予測し、介入ポリシーを知らせるために調査を行うアプリケーションを支援する必要性が動機である。 現実的なシナリオから記録を集めるのが困難であるため、羽音の音から蚊を検知する作業は困難である。 この問題を解決するため、HumBugプロジェクトの一環として、培養ケージで繁殖した蚊から野生で捕獲された蚊まで、世界中の蚊を記録できる実験を行った。 その結果、音声録音は信号対雑音比によって異なり、タンザニア、タイ、ケニア、アメリカ、イギリスなど、幅広い屋内および屋外の背景環境を含んでいる。 本稿では,データの収集,ラベル付け,キュレーションについて詳述する。 データはpostgresqlデータベースから提供され、このデータベースには蚊の捕獲方法、年齢、給餌状況、性別などの重要なメタデータが含まれている。 さらに,その背景環境から蚊を識別し,検出された蚊を種に分類する2つの重要なタスクに対して,特徴抽出とベイズ的畳み込みニューラルネットワークの訓練を行うためのコードを提供する。 当社の広範なデータセットは、音響識別に焦点を当てた機械学習研究者にとっても、蚊の行動を理解し、その分布をモデル化し、人間に対する脅威を管理するために、昆虫学者、地理空間モデルラー、その他のドメインの専門家にとって重要なものです。

This paper presents the first large-scale multi-species dataset of acoustic recordings of mosquitoes tracked continuously in free flight. We present 20 hours of audio recordings that we have expertly labelled and tagged precisely in time. Significantly, 18 hours of recordings contain annotations from 36 different species. Mosquitoes are well-known carriers of diseases such as malaria, dengue and yellow fever. Collecting this dataset is motivated by the need to assist applications which utilise mosquito acoustics to conduct surveys to help predict outbreaks and inform intervention policy. The task of detecting mosquitoes from the sound of their wingbeats is challenging due to the difficulty in collecting recordings from realistic scenarios. To address this, as part of the HumBug project, we conducted global experiments to record mosquitoes ranging from those bred in culture cages to mosquitoes captured in the wild. Consequently, the audio recordings vary in signal-to-noise ratio and contain a broad range of indoor and outdoor background environments from Tanzania, Thailand, Kenya, the USA and the UK. In this paper we describe in detail how we collected, labelled and curated the data. The data is provided from a PostgreSQL database, which contains important metadata such as the capture method, age, feeding status and gender of the mosquitoes. Additionally, we provide code to extract features and train Bayesian convolutional neural networks for two key tasks: the identification of mosquitoes from their corresponding background environments, and the classification of detected mosquitoes into species. Our extensive dataset is both challenging to machine learning researchers focusing on acoustic identification, and critical to entomologists, geo-spatial modellers and other domain experts to understand mosquito behaviour, model their distribution, and manage the threat they pose to humans.
翻訳日:2021-10-19 10:44:28 公開日:2021-10-14
# (参考訳) 深層学習を用いた2次元顕微鏡画像からの3次元構造

3D Structure from 2D Microscopy images using Deep Learning ( http://arxiv.org/abs/2110.07608v1 )

ライセンス: CC BY 4.0
Benjamin J. Blundell, Christian Sieben, Suliana Manley, Ed Rosten, QueeLim Ch'ng, and Susan Cox(参考訳) タンパク質複合体の構造を理解することは、その機能の決定に不可欠である。 しかし、顕微鏡画像から正確な3次元構造を抽出することは極めて困難であり、特に多くの画像モダリティは2次元である。 人工知能の最近の進歩は、主にボクセルに基づく電子顕微鏡画像の解析手法を用いてこの問題に応用されている。 本稿では,複数の2次元単一分子局在顕微鏡画像からタンパク質複合体を再構成するための深層学習法を提案する。 我々の畳み込みニューラルネットワークと微分可能なレンダラーは、ポーズを予測し、単一の構造を導き出す。 トレーニング後、ネットワークは破棄され、この方法の出力はデータセットに適合する構造モデルとなる。 CEP152 (Centrioleの近位トロイドの一部) とセントリオール (Centrioles) の2つのタンパク質複合体上での性能を実証した。

Understanding the structure of a protein complex is crucial indetermining its function. However, retrieving accurate 3D structures from microscopy images is highly challenging, particularly as many imaging modalities are two-dimensional. Recent advances in Artificial Intelligence have been applied to this problem, primarily using voxel based approaches to analyse sets of electron microscopy images. Herewe present a deep learning solution for reconstructing the protein com-plexes from a number of 2D single molecule localization microscopy images, with the solution being completely unconstrained. Our convolutional neural network coupled with a differentiable renderer predicts pose and derives a single structure. After training, the network is dis-carded, with the output of this method being a structural model which fits the data-set. We demonstrate the performance of our system on two protein complexes: CEP152 (which comprises part of the proximal toroid of the centriole) and centrioles.
翻訳日:2021-10-19 10:43:15 公開日:2021-10-14
# (参考訳) 近似推論のためのスパース命令過程 [全文訳有]

Sparse Implicit Processes for Approximate Inference ( http://arxiv.org/abs/2110.07618v1 )

ライセンス: CC BY 4.0
Sim\'on Rodr\'iguez Santana, Bryan Zaldivar, Daniel Hern\'andez-Lobato(参考訳) Implicit Processs(IP)は、ベイズニューラルネットワーク、ニューラルネットワーク、ニューラルネットワーク、データジェネレータなどのモデルを記述するフレキシブルなプリエントである。 IPは関数空間における近似推論を可能にする。 これにより、多数のパラメータと強い依存関係によるパラメータ空間近似推論の退化問題を回避することができる。 このため、前のIPの後方を近似するために余分なIPがしばしば使用される。 しかし、先行IPと近似後IPのパラメータを同時に調整することは難しい課題である。 従来のIPをチューニングできる既存の方法はガウスの予測分布となり、重要なデータパターンをキャプチャできない。 対照的に、後方処理を近似するために別のIPを用いて柔軟な予測分布を生成する方法は、観測データに前のIPを適合させることができない。 ここでは,両タスクを実行できる手法を提案する。 このために、スパースガウス過程の文脈でしばしば行われるように、我々は以前のIPの誘導ポイント表現に依存している。 その結果,従来のIPパラメータをデータに調整し,ガウス的でない正確な予測分布を提供する,IPを近似推論するためのスケーラブルな手法が得られた。

Implicit Processes (IPs) are flexible priors that can describe models such as Bayesian neural networks, neural samplers and data generators. IPs allow for approximate inference in function-space. This avoids some degenerate problems of parameter-space approximate inference due to the high number of parameters and strong dependencies. For this, an extra IP is often used to approximate the posterior of the prior IP. However, simultaneously adjusting the parameters of the prior IP and the approximate posterior IP is a challenging task. Existing methods that can tune the prior IP result in a Gaussian predictive distribution, which fails to capture important data patterns. By contrast, methods producing flexible predictive distributions by using another IP to approximate the posterior process cannot fit the prior IP to the observed data. We propose here a method that can carry out both tasks. For this, we rely on an inducing-point representation of the prior IP, as often done in the context of sparse Gaussian processes. The result is a scalable method for approximate inference with IPs that can tune the prior IP parameters to the data, and that provides accurate non-Gaussian predictive distributions.
翻訳日:2021-10-19 10:42:04 公開日:2021-10-14
# (参考訳) ランサムウェア暗号化活動検出のための機械学習アルゴリズムの検討 [全文訳有]

A Survey of Machine Learning Algorithms for Detecting Ransomware Encryption Activity ( http://arxiv.org/abs/2110.07636v1 )

ライセンス: CC BY 4.0
Erik Larsen, David Noever, Korey MacVittie(参考訳) ランサムウェアを検出するために訓練された機械学習技術の調査を示す。 この研究はTaylorらによる、CPUの電力や温度モニターなどの内蔵機器から収集されたデータを利用して暗号化活動を識別するセンサーベースの手法の取り組みに基づいている。 探索データ分析(EDA)では、このシミュレーションデータから最も有用な機能は、クロック速度、温度、CPU負荷である。 これらの機能は、最適な検出アプローチを決定するために複数のアルゴリズムのトレーニングに使用される。 性能は精度、F1スコア、偽陰性レートメトリクスで評価される。 3つの隠蔽層を持つ多層パーセプトロンは、97%の精度とF1とロバストなデータ準備を達成する。 ランダムフォレストモデルでは、93%の精度と92%のf1が生成され、コードの実行前にゼロデイランサムウェア攻撃を検出するには、センサベースの検出が有効な選択肢であることを示している。

A survey of machine learning techniques trained to detect ransomware is presented. This work builds upon the efforts of Taylor et al. in using sensor-based methods that utilize data collected from built-in instruments like CPU power and temperature monitors to identify encryption activity. Exploratory data analysis (EDA) shows the features most useful from this simulated data are clock speed, temperature, and CPU load. These features are used in training multiple algorithms to determine an optimal detection approach. Performance is evaluated with accuracy, F1 score, and false-negative rate metrics. The Multilayer Perceptron with three hidden layers achieves scores of 97% in accuracy and F1 and robust data preparation. A random forest model produces scores of 93% accuracy and 92% F1, showing that sensor-based detection is currently a viable option to detect even zero-day ransomware attacks before the code fully executes.
翻訳日:2021-10-19 10:10:01 公開日:2021-10-14
# (参考訳) sparks: 言語モデルを用いた科学執筆のためのインスピレーション [全文訳有]

Sparks: Inspiration for Science Writing using Language Models ( http://arxiv.org/abs/2110.07640v1 )

ライセンス: CC BY 4.0
Katy Ilonka Gero, Vivian Liu and Lydia B. Chilton(参考訳) 大規模な言語モデルは急速に改善され、ほとんどカスタマイズすることなく、さまざまなタスクでうまく機能しています。 本研究は,言語モデルが科学記述をどのようにサポートするか,すなわち,オープン・エンドかつ制約の強い文章作成タスクについて検討する。 本稿では,著者を刺激する科学的概念に関連する「スパーク」を生成するシステムを提案する。 当社のsparkは、競争力のある言語モデルのベースラインよりも一貫性があり、多様性が高いことが分かりました。 13人のPhD学生が自身の選択のトピックについて書いている研究では、詳細な文章の作成を支援すること、読者をエンゲージする興味深い角度を提供すること、一般的な読者の視点を示すことの3つの主要なユースケースが見つかった。 また,スパークが不便であると考えられるさまざまな理由について報告し,サポートツールの記述として言語モデルを改善する方法について論じる。

Large-scale language models are rapidly improving, performing well on a wide variety of tasks with little to no customization. In this work we investigate how language models can support science writing, a challenging writing task that is both open-ended and highly constrained. We present a system for generating "sparks", sentences related to a scientific concept intended to inspire writers. We find that our sparks are more coherent and diverse than a competitive language model baseline, and approach a human-created gold standard. In a study with 13 PhD students writing on topics of their own selection, we find three main use cases of sparks: aiding with crafting detailed sentences, providing interesting angles to engage readers, and demonstrating common reader perspectives. We also report on the various reasons sparks were considered unhelpful, and discuss how we might improve language models as writing support tools.
翻訳日:2021-10-19 10:04:27 公開日:2021-10-14
# (参考訳) 協調学習環境における発話検出 [全文訳有]

Talking Detection In Collaborative Learning Environments ( http://arxiv.org/abs/2110.07646v1 )

ライセンス: CC BY 4.0
Wenjing Shi, Marios S. Pattichis, Sylvia Celed\'on-Pattichis, Carlos L\'opezLeiva(参考訳) 協調学習ビデオにおける発話行動の検出問題について検討する。 本手法では,光学フローベクトルの対数倍の頭部検出と投影を用いて,複雑な3次元活動分類システムの訓練を必要とせず,小さな投影画像の単純な分類に問題を縮小する。 小さな投影画像は、標準分類器の単純な多数決で容易に分類される。 音声検出において,提案手法は単一活動系よりも優れた性能を示す。 時間分割ネットワーク(TSN)では42%,畳み込み3D(C3D)では45%と比較すると,全体的な精度は59%であった。 さらに,本手法では,複数の話者から複数の話者を検出できると同時に,話者自体を検出できる。

We study the problem of detecting talking activities in collaborative learning videos. Our approach uses head detection and projections of the log-magnitude of optical flow vectors to reduce the problem to a simple classification of small projection images without the need for training complex, 3-D activity classification systems. The small projection images are then easily classified using a simple majority vote of standard classifiers. For talking detection, our proposed approach is shown to significantly outperform single activity systems. We have an overall accuracy of 59% compared to 42% for Temporal Segment Network (TSN) and 45% for Convolutional 3D (C3D). In addition, our method is able to detect multiple talking instances from multiple speakers, while also detecting the speakers themselves.
翻訳日:2021-10-19 09:36:45 公開日:2021-10-14
# (参考訳) Residual2Vec: ランダムグラフを埋め込んだデバイアスグラフ [全文訳有]

Residual2Vec: Debiasing graph embedding with random graphs ( http://arxiv.org/abs/2110.07654v1 )

ライセンス: CC BY 4.0
Sadamori Kojaku, Jisung Yoon, Isabel Constantino, Yong-Yeol Ahn(参考訳) グラフ埋め込みはグラフ解析と機械学習アプリケーションのための便利なベクトル空間表現にグラフをマッピングする。 多くのグラフ埋め込み手法は、ランダムウォークに基づくコンテキストノードのサンプリングにヒンジする。 しかし、ランダムウォークはグラフの構造的性質から偏りのあるサンプリングである。 特に、ランダムウォークは各ノードの度合いに偏りがあり、ノードはその度合いに比例してサンプリングされる。 このようなバイアスの含意は、特にグラフ表現学習の文脈では明確ではない。 本稿では,ランダムな歩行バイアスがグラフ埋め込みに与える影響を調査し,ランダムグラフを用いてグラフ内の様々な構造バイアスを回避できる一般グラフ埋め込み法であるsusent2vecを提案する。 この偏りがリンク予測やクラスタリング性能を改善するだけでなく、グラフ埋め込みにおける健全な構造特性を明示的にモデル化できることを実証する。

Graph embedding maps a graph into a convenient vector-space representation for graph analysis and machine learning applications. Many graph embedding methods hinge on a sampling of context nodes based on random walks. However, random walks can be a biased sampler due to the structural properties of graphs. Most notably, random walks are biased by the degree of each node, where a node is sampled proportionally to its degree. The implication of such biases has not been clear, particularly in the context of graph representation learning. Here, we investigate the impact of the random walks' bias on graph embedding and propose residual2vec, a general graph embedding method that can debias various structural biases in graphs by using random graphs. We demonstrate that this debiasing not only improves link prediction and clustering performance but also allows us to explicitly model salient structural properties in graph embedding.
翻訳日:2021-10-19 09:31:39 公開日:2021-10-14
# (参考訳) 大規模運用ネットワーク時系列データにおける異常事象予測のための半監督的アプローチ [全文訳有]

A Semi-Supervised Approach for Abnormal Event Prediction on Large Operational Network Time-Series Data ( http://arxiv.org/abs/2110.07660v1 )

ライセンス: CC BY 4.0
Yijun Lin and Yao-Yi Chiang(参考訳) ネットワーク内の異種デバイスやセンサから発生する多変量時系列を記録する大規模ネットワークログは、ネットワーク侵入やデバイス故障といった異常な活動に関する重要な情報を明らかにすることが多い。 多変量時系列の異常検出のための既存の機械学習手法 1)正常なシーケンスは、教師なしモデルのトレーニングに一貫した振る舞いを持つか、または 2) 教師付きモデルにはラベル付き正規シーケンスと異常シーケンスが多数必要である。 しかし、実際には、通常のネットワークアクティビティは、非常に異なるシーケンスパターン(例えば、部分的なネットワークトラフィックの再ルーティング前後)を示すことができる。 また、記録された異常事象はスパースすることができる。 本稿では,ネットワーク時系列と時間点間の依存関係を効率的にキャプチャして,異常事象を予測するためのネットワークアクティビティの有意義な表現を生成する半教師付き手法を提案する。 本手法では, 限定ラベル付きデータを用いて, 正常サンプルと異常サンプルの分離可能な埋め込み空間を明示的に学習し, ラベルなしデータを効果的に活用し, トレーニングデータの不足に対処することができる。 実験の結果,本手法は大規模実世界のネットワークログ上でのイベント検出において,最先端の手法よりも大幅に優れていた。

Large network logs, recording multivariate time series generated from heterogeneous devices and sensors in a network, can often reveal important information about abnormal activities, such as network intrusions and device malfunctions. Existing machine learning methods for anomaly detection on multivariate time series typically assume that 1) normal sequences would have consistent behavior for training unsupervised models, or 2) require a large set of labeled normal and abnormal sequences for supervised models. However, in practice, normal network activities can demonstrate significantly varying sequence patterns (e.g., before and after rerouting partial network traffic). Also, the recorded abnormal events can be sparse. This paper presents a novel semi-supervised method that efficiently captures dependencies between network time series and across time points to generate meaningful representations of network activities for predicting abnormal events. The method can use the limited labeled data to explicitly learn separable embedding space for normal and abnormal samples and effectively leverage unlabeled data to handle training data scarcity. The experiments demonstrate that our approach significantly outperformed state-of-the-art approaches for event detection on a large real-world network log.
翻訳日:2021-10-19 09:02:31 公開日:2021-10-14
# (参考訳) 共形予測を用いた分布フリーフェデレート学習 [全文訳有]

Distribution-Free Federated Learning with Conformal Predictions ( http://arxiv.org/abs/2110.07661v1 )

ライセンス: CC BY 4.0
Charles Lu, Jayasheree Kalpathy-Cramer(参考訳) 統合学習は、患者のプライバシを維持しながら、別々の機関のデータセットを活用するために、医療における協調機械学習に大きな関心を集めている。 しかし、キャリブレーションの貧弱さや解釈性の欠如といった追加の課題は、フェデレーションモデルの臨床試験への広範な展開を阻害し、高リスク臨床意思決定におけるmlツールの不信や誤用につながる可能性がある。 本稿では,モデルや仮定に修正を加えることなく,カバレッジ保証と不確実性推定を提供する分散フリーな予測セットを保証するために,連合学習に適応型共形フレームワークを組み込むことにより,これらの課題に対処することを提案する。 medmnist medical imaging benchmarkの実証結果は,2次元および3次元のマルチクラス分類タスクにおける6種類の医用イメージングベンチマークデータセットにおいて,局所的コンフォメーション予測よりも低い平均濃度のカバレッジを提供する。 さらに,クラスエントロピーと予測セットサイズを相関させ,タスクの不確実性を評価する。

Federated learning has attracted considerable interest for collaborative machine learning in healthcare to leverage separate institutional datasets while maintaining patient privacy. However, additional challenges such as poor calibration and lack of interpretability may also hamper widespread deployment of federated models into clinical practice and lead to user distrust or misuse of ML tools in high-stakes clinical decision-making. In this paper, we propose to address these challenges by incorporating an adaptive conformal framework into federated learning to ensure distribution-free prediction sets that provide coverage guarantees and uncertainty estimates without requiring any additional modifications to the model or assumptions. Empirical results on the MedMNIST medical imaging benchmark demonstrate our federated method provide tighter coverage in lower average cardinality over local conformal predictions on 6 different medical imaging benchmark datasets in 2D and 3D multi-class classification tasks. Further, we correlate class entropy and prediction set size to assess task uncertainty with conformal methods.
翻訳日:2021-10-19 08:54:48 公開日:2021-10-14
# (参考訳) 自由視点ニューラルレンダリングによる外観編集 [全文訳有]

Appearance Editing with Free-viewpoint Neural Rendering ( http://arxiv.org/abs/2110.07674v1 )

ライセンス: CC BY 4.0
Pulkit Gera, Aakash KT, Dhawal Sirikonda, Parikshit Sakurikar, P.J. Narayanan(参考訳) 環境照明下で撮影された多視点画像からシーンの同時合成と外観編集のためのニューラルネットワークレンダリングフレームワークを提案する。 既存のアプローチは、シーンの外観を直接制御することなく、ビュー合成のみを達成するか、ライティングとともにビュー合成を達成する。 当社のアプローチでは、外観を明示的に切り離し、それとは独立して照明表現を学ぶ。 具体的には、BRDFを独立に推定し、それを用いてシーンの照明のみの表現を学習する。 このような絡み合いは、ビュー合成を行いながら外観の任意の変化に一般化することができる。 実際のシーンの外観を編集する結果を示し,提案手法が妥当な外観編集を実現することを示す。 ビュー合成手法の性能は, 実データと合成データの両方に対する最先端の手法と同等であることが実証された。

We present a neural rendering framework for simultaneous view synthesis and appearance editing of a scene from multi-view images captured under known environment illumination. Existing approaches either achieve view synthesis alone or view synthesis along with relighting, without direct control over the scene's appearance. Our approach explicitly disentangles the appearance and learns a lighting representation that is independent of it. Specifically, we independently estimate the BRDF and use it to learn a lighting-only representation of the scene. Such disentanglement allows our approach to generalize to arbitrary changes in appearance while performing view synthesis. We show results of editing the appearance of a real scene, demonstrating that our approach produces plausible appearance editing. The performance of our view synthesis approach is demonstrated to be at par with state-of-the-art approaches on both real and synthetic data.
翻訳日:2021-10-19 08:43:18 公開日:2021-10-14
# (参考訳) スタンス検出はトピック非依存およびクロストピック一般化可能か? -再生研究 [全文訳有]

Is Stance Detection Topic-Independent and Cross-topic Generalizable? -- A Reproduction Study ( http://arxiv.org/abs/2110.07693v1 )

ライセンス: CC BY 4.0
Myrthe Reuver and Suzan Verberne and Roser Morante and Antske Fokkens(参考訳) 横断的姿勢検出は、目に見えないトピックに対する姿勢(プロ、アンチ、中立)を自動的に検出するタスクである。 我々は,最先端の横断的姿勢検出作業(Reimers et. al., 2019)を成功させ,再現性を体系的に分析した。 我々の注目は、この作品の横断的側面と、語彙と社会文化の文脈におけるトピックの特異性に向けられる。 スタンス検出はトピックに依存しず、トピック間で一般化可能であるか? モデルの性能を未認識のトピックで比較し,話題(中絶,クローン化など),クラス(pro,conなど),それらの相互作用がモデルのパフォーマンスに与える影響を見出した。 異なるトピックにおけるパフォーマンスの調査や、トピック固有の語彙や文脈への対処は、横断的姿勢検出のための将来の道である、と結論付けている。

Cross-topic stance detection is the task to automatically detect stances (pro, against, or neutral) on unseen topics. We successfully reproduce state-of-the-art cross-topic stance detection work (Reimers et. al., 2019), and systematically analyze its reproducibility. Our attention then turns to the cross-topic aspect of this work, and the specificity of topics in terms of vocabulary and socio-cultural context. We ask: To what extent is stance detection topic-independent and generalizable across topics? We compare the model's performance on various unseen topics, and find topic (e.g. abortion, cloning), class (e.g. pro, con), and their interaction affecting the model's performance. We conclude that investigating performance on different topics, and addressing topic-specific vocabulary and context, is a future avenue for cross-topic stance detection.
翻訳日:2021-10-19 08:29:00 公開日:2021-10-14
# (参考訳) ASK:RGB-Dシーン認識のためのキーローカル特徴の選択 [全文訳有]

ASK: Adaptively Selecting Key Local Features for RGB-D Scene Recognition ( http://arxiv.org/abs/2110.07703v1 )

ライセンス: CC BY 4.0
Zhitong Xiong, Yuan Yuan and Qi Wang(参考訳) 屋内のシーンイメージは通常、散在するオブジェクトと様々なシーンレイアウトを含んでおり、RGB-Dシーンの分類が困難な課題となっている。 既存の手法には、空間的変動が大きいシーン画像の分類に制限がある。 したがって,RGB-Dシーン認識において,画像ラベルのみを用いて局所的なパッチレベルの特徴を効果的に抽出する方法は,依然として未解決の問題である。 本稿では,シーン画像の空間的変動を捉えるために,重要な局所特徴を適応的に選択する,rgb-dシーン認識のための効率的なフレームワークを提案する。 具体的には,所望の局所的特徴選択(DLFS)モジュールを設計し,重要な局所的特徴の適切な個数を抽出する。 空間的に相関したマルチモーダルRGB-D特徴から、DLFSモジュールで識別的局所テーマレベルとオブジェクトレベルの表現を選択することができる。 我々はRGBと奥行きモードの相関を利用して局所的な特徴を選択するための手がかりを提供する。 識別的局所特徴が選択されることを保証するため、変分的相互情報最大化損失を提案する。 さらにDLFSモジュールは簡単に拡張でき、異なるスケールのローカル機能を選択することができる。 ローカルオーダーレスおよびグローバル構造化マルチモーダル機能を結合することにより、提案フレームワークはパブリックなrgb-dシーン認識データセットで最先端のパフォーマンスを実現することができる。

Indoor scene images usually contain scattered objects and various scene layouts, which make RGB-D scene classification a challenging task. Existing methods still have limitations for classifying scene images with great spatial variability. Thus, how to extract local patch-level features effectively using only image labels is still an open problem for RGB-D scene recognition. In this paper, we propose an efficient framework for RGB-D scene recognition, which adaptively selects important local features to capture the great spatial variability of scene images. Specifically, we design a differentiable local feature selection (DLFS) module, which can extract the appropriate number of key local scenerelated features. Discriminative local theme-level and object-level representations can be selected with the DLFS module from the spatially-correlated multi-modal RGB-D features. We take advantage of the correlation between RGB and depth modalities to provide more cues for selecting local features. To ensure that discriminative local features are selected, the variational mutual information maximization loss is proposed. Additionally, the DLFS module can be easily extended to select local features of different scales. By concatenating the local-orderless and global structured multi-modal features, the proposed framework can achieve state-of-the-art performance on public RGB-D scene recognition datasets.
翻訳日:2021-10-19 08:13:50 公開日:2021-10-14
# (参考訳) e-Healthにおける規制コンプライアンスの半自動チェック [全文訳有]

Semi-automated checking for regulatory compliance in e-Health ( http://arxiv.org/abs/2110.07710v1 )

ライセンス: CC BY 4.0
Ilaria Angela Amantea, Livio Robaldo, Emilio Sulis, Guido Boella, Guido Governatori(参考訳) あらゆるビジネスプロセスの主要な課題の1つは、法的ルールに準拠することである。 この作業は、ビジネスプロセスの規制コンプライアンスを半自動化した方法でチェックする方法論を提示します。 我々は、特にe-Health Hospital Service、the Hospital at Home (HaH) serviceを分析している。 本稿は、まず、BPMN(Business Process Management and Notation)標準言語を用いた病院ビジネスの分析を行い、それから、欧州一般データ保護規則(GDPR)のいくつかの規則のDDL(Dedeasible Deontic Logic)の形式化を示す。 その目的は、ツールを使用して、ビジネスのタスクのセットと準拠すべきルールのセットを組み合わせる方法を示すことである。

One of the main issues of every business process is to be compliant with legal rules. This work presents a methodology to check in a semi-automated way the regulatory compliance of a business process. We analyse an e-Health hospital service in particular: the Hospital at Home (HaH) service. The paper shows, at first, the analysis of the hospital business using the Business Process Management and Notation (BPMN) standard language, then, the formalization in Defeasible Deontic Logic (DDL) of some rules of the European General Data Protection Regulation (GDPR). The aim is to show how to combine a set of tasks of a business with a set of rules to be compliant with, using a tool.
翻訳日:2021-10-19 07:54:03 公開日:2021-10-14
# (参考訳) 自己浄化リプレイによる雑音データストリームの連続学習

Continual Learning on Noisy Data Streams via Self-Purified Replay ( http://arxiv.org/abs/2110.07735v1 )

ライセンス: CC BY 4.0
Chris Dongjoo Kim, Jinseo Jeong, Sangwoo Moon, Gunhee Kim(参考訳) 現実の世界における継続的な学習は多くの課題を克服しなければなりません。 そこで本研究では,大惨事と騒がしいラベルの両方を初めて同時に扱う,repla-yに基づく連続学習フレームワークを提案する。 私たちの解決策は2つの観察に基づいています (i)自己教師付き学習によるノイズラベルにおいても忘れを緩和できる。 (ii)再生バッファの純度が重要である。 この点を踏まえて,本手法の2つの重要な構成要素を提案する。 (i)ノイズラベル付きデータから生じる誤学習信号を回避できるセルフリプレイという自己監督型リプレイ技術 (II) 中心性に基づく確率グラフアンサンブルを介して純粋に再生バッファを保持する自己中心フィルタ。 MNIST, CIFAR-10, CIFAR-100, WebVisionの実環境雑音による実験結果から, このフレームワークは, 最先端の連続学習と雑音ラベル学習の組合せを大幅に向上させつつ, ノイズの多いストリームデータの中で, 極めて純粋な再生バッファを維持可能であることが示された。 ソースコードはhttp://vision.snu.ac .kr/projects/SPRで入手できる。

Continually learning in the real world must overcome many challenges, among which noisy labels are a common and inevitable issue. In this work, we present a repla-ybased continual learning framework that simultaneously addresses both catastrophic forgetting and noisy labels for the first time. Our solution is based on two observations; (i) forgetting can be mitigated even with noisy labels via self-supervised learning, and (ii) the purity of the replay buffer is crucial. Building on this regard, we propose two key components of our method: (i) a self-supervised replay technique named Self-Replay which can circumvent erroneous training signals arising from noisy labeled data, and (ii) the Self-Centered filter that maintains a purified replay buffer via centrality-based stochastic graph ensembles. The empirical results on MNIST, CIFAR-10, CIFAR-100, and WebVision with real-world noise demonstrate that our framework can maintain a highly pure replay buffer amidst noisy streamed data while greatly outperforming the combinations of the state-of-the-art continual learning and noisy label learning methods. The source code is available at http://vision.snu.ac .kr/projects/SPR
翻訳日:2021-10-19 07:41:23 公開日:2021-10-14
# (参考訳) グラフに基づく半教師付き学習におけるモデル変化アクティブラーニング [全文訳有]

Model-Change Active Learning in Graph-Based Semi-Supervised Learning ( http://arxiv.org/abs/2110.07739v1 )

ライセンス: CC BY 4.0
Kevin Miller and Andrea L. Bertozzi(参考訳) 半教師付き分類におけるアクティブラーニングは、基礎となる分類器の精度を向上させるためにラベルなしデータにラベルを追加することを含む。 課題は、新しいラベルの数を制限しながら、どのポイントがパフォーマンスを改善するかを特定することである。 モデル変更」能動学習は、追加ラベルを導入して分類器で生じる結果の変化を定量化する。 このアイデアをグラフベースの半教師付き学習手法と組み合わせて、グラフラプラシア行列のスペクトルを用いて、計算と記憶のコストが不当に大きすぎることを避けることができる。 本研究では,後続分布のラプラス近似を用いて取得関数を効率的に近似できる凸損失関数の族を考える。 先行技術よりも優れた性能を示す多種多様な例を示す。

Active learning in semi-supervised classification involves introducing additional labels for unlabelled data to improve the accuracy of the underlying classifier. A challenge is to identify which points to label to best improve performance while limiting the number of new labels. "Model-change" active learning quantifies the resulting change incurred in the classifier by introducing the additional label(s). We pair this idea with graph-based semi-supervised learning methods, that use the spectrum of the graph Laplacian matrix, which can be truncated to avoid prohibitively large computational and storage costs. We consider a family of convex loss functions for which the acquisition function can be efficiently approximated using the Laplace approximation of the posterior distribution. We show a variety of multiclass examples that illustrate improved performance over prior state-of-art.
翻訳日:2021-10-19 07:40:25 公開日:2021-10-14
# (参考訳) beyond classification: セマンティックセグメンテーションのためのスパイクニューラルネットワークを直接トレーニングする [全文訳有]

Beyond Classification: Directly Training Spiking Neural Networks for Semantic Segmentation ( http://arxiv.org/abs/2110.07742v1 )

ライセンス: CC BY 4.0
Youngeun Kim, Joshua Chough, and Priyadarshini Panda(参考訳) Spiking Neural Networks(SNN)は、そのスパース、非同期、バイナリイベント駆動処理のため、最近、Artificial Neural Networks(ANN)の低消費電力代替として登場した。 エネルギー効率のため、SNNは自動運転車やドローンのような現実の資源に制約されたシステムに配備される可能性が高い。 しかし、その非微分可能で複雑な神経力学のため、従来のSNN最適化手法は画像認識に限られていた。 本稿では,ニューロンをスパイクしたセマンティックセグメンテーションネットワークの分類を超えたSNN応用について検討する。 具体的には、セグメンテーションデータセット上での認識タスク(ANN-SNN変換とシュロゲート勾配学習)の2つの代表的SNN最適化手法について検討する。 ANNから変換されたSNNは,空間的特徴の分散によりレイテンシが高く,性能が低い。 そこで我々は,SNN-SNN変換よりもレイテンシが低く,性能も高いネットワークを直接訓練する。 さらに、SNNドメインに対して2つの基本的なANNセグメンテーションアーキテクチャ(Fully Convolutional NetworksとDeepLab)を再設計する。 我々はpascal voc2012データセットとddd17イベントベースデータセットを含む2つの公開セマンティクスセグメンテーションベンチマークの実験を行う。 セマンティックセグメンテーションのためのSNNの実現可能性を示すことに加え、SNNはこの分野のANNよりも堅牢でエネルギー効率が高いことを示す。

Spiking Neural Networks (SNNs) have recently emerged as the low-power alternative to Artificial Neural Networks (ANNs) because of their sparse, asynchronous, and binary event-driven processing. Due to their energy efficiency, SNNs have a high possibility of being deployed for real-world, resource-constrained systems such as autonomous vehicles and drones. However, owing to their non-differentiable and complex neuronal dynamics, most previous SNN optimization methods have been limited to image recognition. In this paper, we explore the SNN applications beyond classification and present semantic segmentation networks configured with spiking neurons. Specifically, we first investigate two representative SNN optimization techniques for recognition tasks (i.e., ANN-SNN conversion and surrogate gradient learning) on semantic segmentation datasets. We observe that, when converted from ANNs, SNNs suffer from high latency and low performance due to the spatial variance of features. Therefore, we directly train networks with surrogate gradient learning, resulting in lower latency and higher performance than ANN-SNN conversion. Moreover, we redesign two fundamental ANN segmentation architectures (i.e., Fully Convolutional Networks and DeepLab) for the SNN domain. We conduct experiments on two public semantic segmentation benchmarks including the PASCAL VOC2012 dataset and the DDD17 event-based dataset. In addition to showing the feasibility of SNNs for semantic segmentation, we show that SNNs can be more robust and energy-efficient compared to their ANN counterparts in this domain.
翻訳日:2021-10-19 06:57:35 公開日:2021-10-14
# (参考訳) 無注意キーワードスポッティング [全文訳有]

Attention-Free Keyword Spotting ( http://arxiv.org/abs/2110.07749v1 )

ライセンス: CC BY-SA 4.0
Mashrur M. Morshed, Ahmad Omar Ahsan(参考訳) 現在、注意に基づくモデルはキーワードスポッティング問題領域で大きな成功を収めている。 しかし,近年の深層学習の進歩を踏まえて,自己認識が音声キーワード認識において本当に不可能かどうかが問題となっている。 そこで我々は,キーワードスポッティングタスクにおいて,視覚タスクにおけるトランスフォーマの代替品として従来示されていたゲート型mlpの使用法を検討する。 我々は,google speech command v2-35データセットに対する我々のアプローチを検証し,自己注意の明確な使用なしに,最先端技術に匹敵するパフォーマンスを得ることができることを示す。

Till now, attention-based models have been used with great success in the keyword spotting problem domain. However, in light of recent advances in deep learning, the question arises whether self-attention is truly irreplaceable for recognizing speech keywords. We thus explore the usage of gated MLPs -- previously shown to be alternatives to transformers in vision tasks -- for the keyword spotting task. We verify our approach on the Google Speech Commands V2-35 dataset and show that it is possible to obtain performance comparable to the state of the art without any apparent usage of self-attention.
翻訳日:2021-10-19 06:39:21 公開日:2021-10-14
# (参考訳) 後遺症 : 開放型世代改善のためのレトリバーの後方誘導訓練 [全文訳有]

Hindsight: Posterior-guided training of retrievers for improved open-ended generation ( http://arxiv.org/abs/2110.07752v1 )

ライセンス: CC BY 4.0
Ashwin Paranjape, Omar Khattab, Christopher Potts, Matei Zaharia, Christopher D. Manning(参考訳) 多くのテキスト生成システムは、検索器を使用してテキスト知識コーパス(例えばウィキペディア)からパスを検索し、生成装置に追加のコンテキストとして提供される。 オープンエンドの世代タスク(会話で情報的な発話を生成するなど)では、多くの異なる通路が等しく関連しており、レトリバーとジェネレータのアンダーパーフォームを共同で訓練する既存の方法を見つける:レトリバーはトップ10の中にも関連する通路を見つけられず、したがってジェネレータはその出力を接地する好みを学習できない。 目標出力の使用を許可した追加のガイドレトリバーを用いて,訓練中の関連通路を「後見」で検索する。 We model the guide retriever after the posterior distribution Q of passages given the input and the target output and train it jointly with the standard retriever and the generator by maximizing the evidence lower bound (ELBo) in expectation over Q. For informative conversations from the Wizard of Wikipedia dataset, with posterior-guided training, the retriever finds passages with higher relevance in the top-10 (23% relative improvement), the generator's responses are more grounded in the retrieved passage (19% relative improvement) and the end-to-end system produces better overall output (6.4% relative improvement).

Many text generation systems benefit from using a retriever to retrieve passages from a textual knowledge corpus (e.g., Wikipedia) which are then provided as additional context to the generator. For open-ended generation tasks (like generating informative utterances in conversations) many varied passages may be equally relevant and we find that existing methods that jointly train the retriever and generator underperform: the retriever may not find relevant passages even amongst the top-10 and hence the generator may not learn a preference to ground its generated output in them. We propose using an additional guide retriever that is allowed to use the target output and "in hindsight" retrieve relevant passages during training. We model the guide retriever after the posterior distribution Q of passages given the input and the target output and train it jointly with the standard retriever and the generator by maximizing the evidence lower bound (ELBo) in expectation over Q. For informative conversations from the Wizard of Wikipedia dataset, with posterior-guided training, the retriever finds passages with higher relevance in the top-10 (23% relative improvement), the generator's responses are more grounded in the retrieved passage (19% relative improvement) and the end-to-end system produces better overall output (6.4% relative improvement).
翻訳日:2021-10-19 06:29:10 公開日:2021-10-14
# (参考訳) WSINDyを用いた粒子データからの平均場方程式の学習 [全文訳有]

Learning Mean-Field Equations from Particle Data Using WSINDy ( http://arxiv.org/abs/2110.07756v1 )

ライセンス: CC BY 4.0
Daniel A. Messenger, David M. Bortz(参考訳) 粒子系(IPS)を相互作用する弱い形状のスパース同定法を開発し,大粒子数$N$の計算複雑性を低減し,本質的あるいは外生的雑音に対して頑健性を提供する。 特に, IPSの平均場理論と非線形力学アルゴリズム (WSINDy) の弱形式スパース同定を併用して, 実験あたりの粒子数N$が数千のオーダーであり, 実験数M$が100未満である場合に, IPSの確率微分方程式を高速かつ信頼性の高いシステム同定手法を提案する。 これは、システム識別が100ドル以下で、数千ドルのオーダーで$M$が強形式法で実現可能であることを示す既存の研究とは対照的である。 いくつかの標準正則性仮定の下では、スキームは通常の最小二乗設定のレート $\mathcal{o}(n^{-1/2})$ で収束し、1 と 2 つの空間次元の複数の系上の収束率を数値的に示す。 我々の例としては、均質化理論(粗粒度モデルを学ぶための第一歩として)からの正準問題、誘惑的スワムの力学、および化学運動のための放物的楕円型ケラー・セゲルモデルのIPS記述がある。

We develop a weak-form sparse identification method for interacting particle systems (IPS) with the primary goals of reducing computational complexity for large particle number $N$ and offering robustness to either intrinsic or extrinsic noise. In particular, we use concepts from mean-field theory of IPS in combination with the weak-form sparse identification of nonlinear dynamics algorithm (WSINDy) to provide a fast and reliable system identification scheme for recovering the governing stochastic differential equations for an IPS when the number of particles per experiment $N$ is on the order of several thousand and the number of experiments $M$ is less than 100. This is in contrast to existing work showing that system identification for $N$ less than 100 and $M$ on the order of several thousand is feasible using strong-form methods. We prove that under some standard regularity assumptions the scheme converges with rate $\mathcal{O}(N^{-1/2})$ in the ordinary least squares setting and we demonstrate the convergence rate numerically on several systems in one and two spatial dimensions. Our examples include a canonical problem from homogenization theory (as a first step towards learning coarse-grained models), the dynamics of an attractive-repulsive swarm, and the IPS description of the parabolic-elliptic Keller-Segel model for chemotaxis.
翻訳日:2021-10-19 06:06:58 公開日:2021-10-14
# (参考訳) ステレオマッチング型深層畳み込みニューラルネットワークによる3次元構造再構成 [全文訳有]

3D Reconstruction of Curvilinear Structures with Stereo Matching DeepConvolutional Neural Networks ( http://arxiv.org/abs/2110.07766v1 )

ライセンス: CC BY 4.0
Okan Alting\"ovde, Anastasiia Mishchuk, Gulnaz Ganeeva, Emad Oveisi, Cecile Hebert, Pascal Fua(参考訳) 線状構造は、顕微鏡イメージングにおいて関心の対象としてしばしば現れる。 結晶学的な欠陥、すなわち転位は透過電子顕微鏡(TEM)で繰り返し研究されてきた曲線構造の一つであり、それらの3次元構造情報は材料の物性を理解する上で非常に重要である。 転位に関する3次元情報は、傾き角や類似した撮像条件の異なる多数の画像を取得する必要があるため、面倒な過程であるトモグラフィーによって得られることが多い。 オルタナティブ立体視法では必要な画像数を2つに減らすが、正確な3次元推定には人間の介入と形状事前が必要となる。 本稿では,3次元形状を前提とせずに,深部畳み込みニューラルネットワーク(CNN)を用いて,立体対における曲線構造の検出とマッチングを行う完全自動パイプラインを提案する。 本研究は,TEM画像のステレオ対から転位を3次元再構成することに焦点を当てる。

Curvilinear structures frequently appear in microscopy imaging as the object of interest. Crystallographic defects, i.e., dislocations, are one of the curvilinear structures that have been repeatedly investigated under transmission electron microscopy (TEM) and their 3D structural information is of great importance for understanding the properties of materials. 3D information of dislocations is often obtained by tomography which is a cumbersome process since it is required to acquire many images with different tilt angles and similar imaging conditions. Although, alternative stereoscopy methods lower the number of required images to two, they still require human intervention and shape priors for accurate 3D estimation. We propose a fully automated pipeline for both detection and matching of curvilinear structures in stereo pairs by utilizing deep convolutional neural networks (CNNs) without making any prior assumption on 3D shapes. In this work, we mainly focus on 3D reconstruction of dislocations from stereo pairs of TEM images.
翻訳日:2021-10-19 05:19:17 公開日:2021-10-14
# S^2$上の滑らかな確率密度関数の空間上の領域

Areas on the space of smooth probability density functions on $S^2$ ( http://arxiv.org/abs/2110.07773v1 )

ライセンス: Link先を確認
J. C. Ru\'iz-Pantale\'on, P. Su\'arez-Serrato(参考訳) 平面, 2-トーラス, 2-球面の正の密度を持つ測度空間上でポアソンブラケットを計算するための記号的および数値的手法を提案する。 2次元球面の場合の有限領域のシンプレクティック領域の計算に本手法を適用し、正の密度を持つガウス測度の明示的な例を含む。

We present symbolic and numerical methods for computing Poisson brackets on the spaces of measures with positive densities of the plane, the 2-torus, and the 2-sphere. We apply our methods to compute symplectic areas of finite regions for the case of the 2-sphere, including an explicit example for Gaussian measures with positive densities.
翻訳日:2021-10-18 15:41:52 公開日:2021-10-14
# エゴセントリックビデオからのアクティビティ・コンテクスト前のエンボディード・エージェントの挙動

Shaping embodied agent behavior with activity-context priors from egocentric video ( http://arxiv.org/abs/2110.07692v1 )

ライセンス: Link先を確認
Tushar Nagarajan and Kristen Grauman(参考訳) 複雑な物理的タスクには、それぞれが自身の前提条件を持つ一連のオブジェクトの相互作用が含まれており、ロボットエージェントが自身の経験だけで効率的に学習することは困難である。 そこで我々は,人間の着用カメラで撮影した野生の自我中心の映像から,行動コンテキストの先行点を発見する手法を提案する。 与えられた対象に対して、アクティビティ・コンテクストは、成功するために要求される他の互換オブジェクトの集合を表す(例えば、トマトと一緒に持ち込まれたナイフと切削板は、切断に寄与する)。 我々は,ビデオの先行を補助報酬関数としてエンコードし,エージェントが対話を試みる前に,互換性のあるオブジェクトをまとめることを促す。 このようにして、我々のモデルは日常の人間体験をエンボディエージェントスキルに変換する。 我々は,AI2-iTHORの様々な複雑なタスクを行う仮想家庭ロボットエージェントに利益をもたらすために,非記述型キッチン活動を行う人々のエゴセントリックEPIC-Kitchensビデオを用いて,我々のアイデアを実証した。 プロジェクトページ: http://vision.cs.ute xas.edu/projects/ego -rewards/

Complex physical tasks entail a sequence of object interactions, each with its own preconditions -- which can be difficult for robotic agents to learn efficiently solely through their own experience. We introduce an approach to discover activity-context priors from in-the-wild egocentric video captured with human worn cameras. For a given object, an activity-context prior represents the set of other compatible objects that are required for activities to succeed (e.g., a knife and cutting board brought together with a tomato are conducive to cutting). We encode our video-based prior as an auxiliary reward function that encourages an agent to bring compatible objects together before attempting an interaction. In this way, our model translates everyday human experience into embodied agent skills. We demonstrate our idea using egocentric EPIC-Kitchens video of people performing unscripted kitchen activities to benefit virtual household robotic agents performing various complex tasks in AI2-iTHOR, significantly accelerating agent learning. Project page: http://vision.cs.ute xas.edu/projects/ego -rewards/
翻訳日:2021-10-18 15:27:08 公開日:2021-10-14
# 超高分解能7テスラ外用T2w MRIにおけるヒト脳半球の灰白質分画

Gray Matter Segmentation in Ultra High Resolution 7 Tesla ex vivo T2w MRI of Human Brain Hemispheres ( http://arxiv.org/abs/2110.07711v1 )

ライセンス: Link先を確認
Pulkit Khandelwal, Shokufeh Sadaghiani, Sadhana Ravikumar, Sydney Lim, Sanaz Arezoumandan, Claire Peterson, Eunice Chung, Madigan Bedard, Noah Capp, Ranjit Ittyerah, Elyse Migdal, Grace Choi, Emily Kopp, Bridget Loja, Eusha Hasan, Jiacheng Li, Karthik Prabhakaran, Gabor Mizsei, Marianna Gabrielyan, Theresa Schuck, John Robinson, Daniel Ohm, Edward Lee, John Q. Trojanowski, Corey McMillan, Murray Grossman, David Irwin, M. Dylan Tisdall, Sandhitsu R. Das, Laura E.M. Wisse, David A. Wolk, Paul A. Yushkevich(参考訳) 脳の生体外MRIは、詳細な神経解剖学を可視化し特徴付けるために、生体内MRIよりも優れた利点を提供する。 しかし, 生体外MRIにおける皮質自動分割法は, ラベル付きデータセットが限られており, スキャナハードウェアと取得プロトコルの不均一性のため, 十分に開発されていない。 そこで本研究では,32個のヒト脳内標本の高解像度7テスラデータセットを提案する。 我々は、9つのニューラルネットワークアーキテクチャの皮質マントルセグメンテーション性能をベンチマークし、特定の皮質領域から採取した手動3Dパッチを用いて訓練、評価し、異なる試料の脳半球全体、および異なる磁場強度および撮像シーケンスで取得した見えない画像に対して優れた一般化能力を示す。 最後に,3次元脳外画像における鍵領域の皮質厚測定を行った。 私たちのコードと処理されたデータセットはhttps://github.com/P ulkit-Khandelwal/pic sl-ex-vivo-segmentat ionで公開されています。

Ex vivo MRI of the brain provides remarkable advantages over in vivo MRI for visualizing and characterizing detailed neuroanatomy. However, automated cortical segmentation methods in ex vivo MRI are not well developed, primarily due to limited availability of labeled datasets, and heterogeneity in scanner hardware and acquisition protocols. In this work, we present a high resolution 7 Tesla dataset of 32 ex vivo human brain specimens. We benchmark the cortical mantle segmentation performance of nine neural network architectures, trained and evaluated using manually-segmented 3D patches sampled from specific cortical regions, and show excellent generalizing capabilities across whole brain hemispheres in different specimens, and also on unseen images acquired at different magnetic field strength and imaging sequences. Finally, we provide cortical thickness measurements across key regions in 3D ex vivo human brain images. Our code and processed datasets are publicly available at https://github.com/P ulkit-Khandelwal/pic sl-ex-vivo-segmentat ion.
翻訳日:2021-10-18 15:26:49 公開日:2021-10-14
# 網膜病変検出に基づく眼底画像における糖尿病網膜症の分類のためのディープラーニングモデル

A deep learning model for classification of diabetic retinopathy in eye fundus images based on retinal lesion detection ( http://arxiv.org/abs/2110.07745v1 )

ライセンス: Link先を確認
Melissa delaPava, Hern\'an R\'ios, Francisco J. Rodr\'iguez, Oscar J. Perdomo and Fabio A. Gonz\'alez(参考訳) 糖尿病網膜症 (DR) は、網膜に影響を及ぼす糖尿病の合併症の結果である。 診断を受けずに治療を受けなければ、盲目を引き起こす可能性がある。 眼科医は、各患者をスクリーニングし、眼底画像により網膜病変を分析して診断を行う。 実際には、そのような分析は時間がかかり、実行しづらい。 本稿では眼底画像の自動DR分類モデルを提案する。 このアプローチは、DRに関連する主要な眼の病変を特定し、その後病気を診断する。 提案手法は臨床医と同じワークフローを踏襲し,その予測を支援するために臨床的に解釈できる情報を提供する。 カグルEyePACSとMessidor-2データセットのサブセットは、眼の病変をラベル付けして公開されている。 カグルEyePACSサブセットはトレーニングセットとして、Messidor-2は病変とDR分類モデルのテストセットとして使用される。 DR診断において,本モデルは,最先端アプローチと競合する0.948,0.886,0.875の面積,感度,特異性を有する。

Diabetic retinopathy (DR) is the result of a complication of diabetes affecting the retina. It can cause blindness, if left undiagnosed and untreated. An ophthalmologist performs the diagnosis by screening each patient and analyzing the retinal lesions via ocular imaging. In practice, such analysis is time-consuming and cumbersome to perform. This paper presents a model for automatic DR classification on eye fundus images. The approach identifies the main ocular lesions related to DR and subsequently diagnoses the illness. The proposed method follows the same workflow as the clinicians, providing information that can be interpreted clinically to support the prediction. A subset of the kaggle EyePACS and the Messidor-2 datasets, labeled with ocular lesions, is made publicly available. The kaggle EyePACS subset is used as a training set and the Messidor-2 as a test set for lesions and DR classification models. For DR diagnosis, our model has an area-under-the-curve , sensitivity, and specificity of 0.948, 0.886, and 0.875, respectively, which competes with state-of-the-art approaches.
翻訳日:2021-10-18 15:26:18 公開日:2021-10-14
# 連合学習と次世代無線通信:双方向関係に関する調査

Federated learning and next generation wireless communications: A survey on bidirectional relationship ( http://arxiv.org/abs/2110.07649v1 )

ライセンス: Link先を確認
Debaditya Shome, Omer Waqar and Wali Ullah Khan(参考訳) 次世代無線通信ネットワークの極めて異質な要件を満たすために、研究コミュニティは、リアルタイム意思決定と無線リソース管理に機械学習ソリューションを使うことにますます依存している。 従来の機械学習では、トレーニングデータ全体がひとつのノード(例えばクラウドサーバ)で収集される完全な集中型アーキテクチャを採用しており、通信オーバーヘッドを大幅に増加させ、プライバシーの懸念を生じさせる。 この目的に向けて、フェデレーション学習(fl)と呼ばれる分散機械学習パラダイムが最近提案されている。 flでは、各エッジデバイスは自身のトレーニングデータを使用してローカルモデルをトレーニングする。 そして、無線チャネルを介して、局所的に訓練されたモデルの重みまたはパラメータを中央PSに送り、それを集約し、グローバルモデルを更新します。 一方、FLは、無線通信ネットワークのリソースを最適化する上で重要な役割を担い、一方、FLにとって無線通信は不可欠である。 したがって、flと無線通信の間には「双方向」の関係が存在する。 flは新興のコンセプトだが、flとその次世代無線ネットワークへの応用に関する多くの論文がすでに出版されている。 しかし、いずれの研究もFLと無線通信の双方向関係を強調していないことに気づきました。 本研究の目的は,FLと無線通信の相互依存性について,タイムリーかつ包括的な議論を行うことで,文献のギャップを埋めることである。

In order to meet the extremely heterogeneous requirements of the next generation wireless communication networks, research community is increasingly dependent on using machine learning solutions for real-time decision-making and radio resource management. Traditional machine learning employs fully centralized architecture in which the entire training data is collected at one node e.g., cloud server, that significantly increases the communication overheads and also raises severe privacy concerns. Towards this end, a distributed machine learning paradigm termed as Federated learning (FL) has been proposed recently. In FL, each participating edge device trains its local model by using its own training data. Then, via the wireless channels the weights or parameters of the locally trained models are sent to the central PS, that aggregates them and updates the global model. On one hand, FL plays an important role for optimizing the resources of wireless communication networks, on the other hand, wireless communications is crucial for FL. Thus, a `bidirectional' relationship exists between FL and wireless communications. Although FL is an emerging concept, many publications have already been published in the domain of FL and its applications for next generation wireless networks. Nevertheless, we noticed that none of the works have highlighted the bidirectional relationship between FL and wireless communications. Therefore, the purpose of this survey paper is to bridge this gap in literature by providing a timely and comprehensive discussion on the interdependency between FL and wireless communications.
翻訳日:2021-10-18 15:22:11 公開日:2021-10-14
# リモートセンシングと機械学習による太陽フレアの予測

Predicting Solar Flares with Remote Sensing and Machine Learning ( http://arxiv.org/abs/2110.07658v1 )

ライセンス: Link先を確認
Erik Larsen(参考訳) 高エネルギーの太陽フレアとコロナ質量放出は、地球の地上と衛星のインフラを破壊する可能性があり、数十億ドルの損害と大衆の苦しみを引き起こす。 これらの重要なシステムの破壊は、電力網と衛星を無効にし、通信と輸送を阻害する。 このことは食糧不足と緊急対応のできないことに繋がる。 ここでは、太陽軌道上の衛星を用いて太陽を継続的に監視し、人工知能と機械学習を用いて、この知覚されたデータから巨大な太陽爆発の確率を計算し、脅威を緩和する信号防御機構を提案する。 現代の技術では、十分な警告で実装可能なセーフガードしか存在しないため、最良のアルゴリズムを識別し、既存のデータと新しいデータで継続的に訓練し、真正の率を最大化し、偽陰性を最小限に抑える必要がある。 本稿では,オープンソースの太陽フレア予測データを用いて,現在の機械学習モデルのサーベイを行う。 エッジコンピューティングの台頭により、機械学習ハードウェアはセンサーアレイと同じ衛星上に配置でき、空間の広い範囲にわたってリモートセンシングデータを送信する必要がなくなるため、臨界時間を節約できる。 システム・オブ・システム・アプローチは、災害のリスクを軽減し、安全対策を講じるのに十分な警告を許容する。

High energy solar flares and coronal mass ejections have the potential to destroy Earth's ground and satellite infrastructures, causing trillions of dollars in damage and mass human suffering. Destruction of these critical systems would disable power grids and satellites, crippling communications and transportation. This would lead to food shortages and an inability to respond to emergencies. A solution to this impending problem is proposed herein using satellites in solar orbit that continuously monitor the Sun, use artificial intelligence and machine learning to calculate the probability of massive solar explosions from this sensed data, and then signal defense mechanisms that will mitigate the threat. With modern technology there may be only safeguards that can be implemented with enough warning, which is why the best algorithm must be identified and continuously trained with existing and new data to maximize true positive rates while minimizing false negatives. This paper conducts a survey of current machine learning models using open source solar flare prediction data. The rise of edge computing allows machine learning hardware to be placed on the same satellites as the sensor arrays, saving critical time by not having to transmit remote sensing data across the vast distances of space. A system of systems approach will allow enough warning for safety measures to be put into place mitigating the risk of disaster.
翻訳日:2021-10-18 15:21:50 公開日:2021-10-14
# ハードウェアにおける深部ニューラルネットワークによるバックドアインジェクション攻撃の最適化

An Optimization Perspective on Realizing Backdoor Injection Attacks on Deep Neural Networks in Hardware ( http://arxiv.org/abs/2110.07683v1 )

ライセンス: Link先を確認
M. Caner Tol, Saad Islam, Berk Sunar, Ziming Zhang(参考訳) 最先端のディープニューラルネットワーク(DNN)は、敵の操作やバックドア攻撃に弱いことが証明されている。 バックドアモデルは、クリーンデータのパフォーマンスを維持しながら、事前定義されたトリガーで入力の期待される振る舞いから逸脱する。 近年の研究では,メモリのビット割り当てなどのハードウェア制限のため,ネットワーク重みの変更による推論フェーズにおけるバックドアインジェクションのソフトウェアシミュレーションに焦点が当てられている。 そこで本研究では,ハードウェア上でのdnnのリアルタイム展開におけるバックドアインジェクション攻撃の可能性について検討し,新しい最適化の観点からハードウェア実装の実際的な課題に対処した。 私たちは、脆弱なメモリロケーションが非常に稀で、デバイス固有で、分散がほとんどないという事実に動機付けられています。 そこで本研究では,ハードウェアにおけるバックドアインジェクション攻撃に対する制約付き最適化に基づくネットワークトレーニングアルゴリズムを提案する。 畳み込み層と完全接続層を一様にパラメータを変更し、トリガパターンを最適化することで、ビットフリップを少なくして最先端のアタック性能を実現する。 例えば,CIFAR-10でトレーニングしたResNet-20モデルでは,220万ビットのうち10ビットのみを反転させることで,91%以上のテスト精度と94%の攻撃成功率が得られる。

State-of-the-art deep neural networks (DNNs) have been proven to be vulnerable to adversarial manipulation and backdoor attacks. Backdoored models deviate from expected behavior on inputs with predefined triggers while retaining performance on clean data. Recent works focus on software simulation of backdoor injection during the inference phase by modifying network weights, which we find often unrealistic in practice due to the hardware restriction such as bit allocation in memory. In contrast, in this work, we investigate the viability of backdoor injection attacks in real-life deployments of DNNs on hardware and address such practical issues in hardware implementation from a novel optimization perspective. We are motivated by the fact that the vulnerable memory locations are very rare, device-specific, and sparsely distributed. Consequently, we propose a novel network training algorithm based on constrained optimization for realistic backdoor injection attack in hardware. By modifying parameters uniformly across the convolutional and fully-connected layers as well as optimizing the trigger pattern together, we achieve the state-of-the-art attack performance with fewer bit flips. For instance, our method on a hardware-deployed ResNet-20 model trained on CIFAR-10 can achieve over 91% test accuracy and 94% attack success rate by flipping only 10 bits out of 2.2 million bits.
翻訳日:2021-10-18 15:21:29 公開日:2021-10-14
# テンソル分解のためのより効率的なサンプリング

More Efficient Sampling for Tensor Decomposition ( http://arxiv.org/abs/2110.07631v1 )

ライセンス: Link先を確認
Osman Asif Malik(参考訳) 近年, cp とテンソル環分解のための交互最小二乗法 (als) を開発し, 低ランク分解の入力テンソル入力数をサブリニアに設定した。 しかし、これらの方法のイテレーションあたりのコストはテンソルモードの数に指数関数的に依存している。 本稿では,コストが指数関数的依存性を持たないcpおよびテンソル環分解に対するサンプリングに基づくals法を提案する。 詳細な理論解析を行い,その手法を特徴抽出実験に適用する。

Recent papers have developed alternating least squares (ALS) methods for CP and tensor ring decomposition with a per-iteration cost which is sublinear in the number of input tensor entries for low-rank decomposition. However, the per-iteration cost of these methods still has an exponential dependence on the number of tensor modes. In this paper, we propose sampling-based ALS methods for the CP and tensor ring decompositions whose cost does not have this exponential dependence, thereby significantly improving on the previous state-of-the-art. We provide a detailed theoretical analysis and also apply the methods in a feature extraction experiment.
翻訳日:2021-10-18 15:17:11 公開日:2021-10-14
# systolic peaksの学習による顔映像からの非接触心房細動検出

Non-contact Atrial Fibrillation Detection from Face Videos by Learning Systolic Peaks ( http://arxiv.org/abs/2110.07610v1 )

ライセンス: Link先を確認
Zhaodong Sun, Juhani Junttila, Mikko Tulppo, Tapio Sepp\"anen, Xiaobai Li(参考訳) 目的: 顔画像からの心房細動(AF)検出のための非接触的アプローチを提案する。 方法: 健常者100名とaf患者100名を対象に, 顔ビデオ, 心電図(ecg), コンタクトフォトプレチモグラフィ(ppg)を用いた。 健康グループ内のすべてのビデオは、健康であるとラベル付けされています。 患者グループのビデオは、心臓科医によってAF、sinus rhythm(SR)、atrial flutter(AFL)とラベル付けされる。 我々は3次元畳み込みニューラルネットワークを遠隔PSG計測に使用し、新しい損失関数(ワッサースタイン距離)を提案し、接触PSGからの収縮ピークのタイミングをモデルトレーニングのラベルとして利用する。 そして、ビート間隔から心拍変動(HRV)特徴セットを算出し、HRV特徴で支持ベクトルマシン(SVM)分類器を訓練する。 結果: 提案手法により, 顔画像から収縮ピークを抽出し, AF検出を行う。 提案手法は,30sビデオクリップを用いた被写体非依存10倍クロスバリデーションを用いて訓練し,2つのタスクでテストした。 1)健康とAFの分類:精度、感度、特異性は96.16%、95.71%、96.23%である。 2)SR対AFの分類:精度、感度、特異性は95.31%、98.66%、91.11%である。 結論: 収縮ピークの学習による非接触AF検出の性能は良好である。 意義:非接触型AF検出は、在宅の被疑者に対するAF症状の自己スクリーニングや、慢性的な患者に対する治療後のAF再発の自己モニタリングに利用できる。

Objective: We propose a non-contact approach for atrial fibrillation (AF) detection from face videos. Methods: Face videos, electrocardiography (ECG), and contact photoplethysmography (PPG) from 100 healthy subjects and 100 AF patients are recorded. All the videos in the healthy group are labeled as healthy. Videos in the patient group are labeled as AF, sinus rhythm (SR), or atrial flutter (AFL) by cardiologists. We use the 3D convolutional neural network for remote PPG measurement and propose a novel loss function (Wasserstein distance) to use the timing of systolic peaks from contact PPG as the label for our model training. Then a set of heart rate variability (HRV) features are calculated from the inter-beat intervals, and a support vector machine (SVM) classifier is trained with HRV features. Results: Our proposed method can accurately extract systolic peaks from face videos for AF detection. The proposed method is trained with subject-independent 10-fold cross-validation with 30s video clips and tested on two tasks. 1) Classification of healthy versus AF: the accuracy, sensitivity, and specificity are 96.16%, 95.71%, and 96.23%. 2) Classification of SR versus AF: the accuracy, sensitivity, and specificity are 95.31%, 98.66%, and 91.11%. Conclusion: We achieve good performance of non-contact AF detection by learning systolic peaks. Significance: non-contact AF detection can be used for self-screening of AF symptom for suspectable populations at home, or self-monitoring of AF recurrence after treatment for the chronical patients.
翻訳日:2021-10-18 14:41:54 公開日:2021-10-14
# 等価表現による模倣体験の促進

Augmenting Imitation Experience via Equivariant Representations ( http://arxiv.org/abs/2110.07668v1 )

ライセンス: Link先を確認
Dhruv Sharma, Alihusein Kuwajerwala, Florian Shkurti(参考訳) 模倣によって訓練された視覚ナビゲーションポリシーの堅牢性は、しばしば訓練された画像-アクションペアの増強に影響を及ぼす。 伝統的に、これは複数のカメラからのデータ収集、コンピュータビジョンからの標準的なデータ拡張、例えば各画像にランダムノイズを加えたり、トレーニング画像の合成によって行われてきた。 本稿では,学習データに観察された視点埋め込みと動作の補間に基づいて,視覚的ナビゲーションのためのデータ拡張のための別の実用的な方法を提案する。 本手法は,2次元および3次元の視覚ナビゲーション問題の幾何学的形状を利用して,同変埋め込みの関数であるポリシーに依存している。 トレーニングナビゲーションデータセットからイメージアクションペアが与えられた場合、ニューラルネットワークモデルは、同分散特性を用いて、近くの視点での画像の潜時表現を予測し、データセットを増強する。 次に、拡張データセットのポリシーをトレーニングします。 シミュレーションの結果,この方法で訓練されたポリシーはクロストラックエラーを低減し,標準強化法で訓練されたポリシーに比べて介入が少なくなることが示された。 また,実地ロボットによる自律視覚ナビゲーションにおいても,500m以上の経路に沿って同様の結果を示す。

The robustness of visual navigation policies trained through imitation often hinges on the augmentation of the training image-action pairs. Traditionally, this has been done by collecting data from multiple cameras, by using standard data augmentations from computer vision, such as adding random noise to each image, or by synthesizing training images. In this paper we show that there is another practical alternative for data augmentation for visual navigation based on extrapolating viewpoint embeddings and actions nearby the ones observed in the training data. Our method makes use of the geometry of the visual navigation problem in 2D and 3D and relies on policies that are functions of equivariant embeddings, as opposed to images. Given an image-action pair from a training navigation dataset, our neural network model predicts the latent representations of images at nearby viewpoints, using the equivariance property, and augments the dataset. We then train a policy on the augmented dataset. Our simulation results indicate that policies trained in this way exhibit reduced cross-track error, and require fewer interventions compared to policies trained using standard augmentation methods. We also show similar results in autonomous visual navigation by a real ground robot along a path of over 500m.
翻訳日:2021-10-18 14:41:21 公開日:2021-10-14
# 最小限と局所性保証を用いた音と完全ニューラルネットワーク修復

Sound and Complete Neural Network Repair with Minimality and Locality Guarantees ( http://arxiv.org/abs/2110.07682v1 )

ライセンス: Link先を確認
Feisi Fu, Wenchao Li(参考訳) 本稿では,ReLUアクティベーション関数を用いたニューラルネットワークの修復手法を提案する。 関数空間のグローバルな変化を誘発するニューラルネットワークの重みの変更に依存する既存の手法とは異なり、我々のアプローチは、バグギーな振る舞いの除去を保証しながら、関数空間の局所的な変化のみを適用する。 提案手法は,ReLUネットワークの断片的線形性を活用することにより,バギー入力が駐在するリニア領域に適したパッチネットワークを効率的に構築し,元のネットワークと組み合わせることで,バギー入力の動作を確実に補正することができる。 修正されたネットワークはバギー入力の修正が保証され、パッチはバギー入力で見つかることが保証されます。 さらに,本手法では,ReLUネットワークの連続的な部分的線形性を保ち,修復領域内の他の未検出バギー入力を含む全ての点に対する修復を自動的に一般化し,機能空間の変化を最小限に抑え,修復領域から離れた入力に対する出力が変更されないことを保証している。 いくつかのベンチマークにおいて,提案手法は局所性と負の副作用の制限の観点から既存手法よりも著しく優れていた。

We present a novel methodology for repairing neural networks that use ReLU activation functions. Unlike existing methods that rely on modifying the weights of a neural network which can induce a global change in the function space, our approach applies only a localized change in the function space while still guaranteeing the removal of the buggy behavior. By leveraging the piecewise linear nature of ReLU networks, our approach can efficiently construct a patch network tailored to the linear region where the buggy input resides, which when combined with the original network, provably corrects the behavior on the buggy input. Our method is both sound and complete -- the repaired network is guaranteed to fix the buggy input, and a patch is guaranteed to be found for any buggy input. Moreover, our approach preserves the continuous piecewise linear nature of ReLU networks, automatically generalizes the repair to all the points including other undetected buggy inputs inside the repair region, is minimal in terms of changes in the function space, and guarantees that outputs on inputs away from the repair region are unaltered. On several benchmarks, we show that our approach significantly outperforms existing methods in terms of locality and limiting negative side effects.
翻訳日:2021-10-18 14:20:48 公開日:2021-10-14
# 夜」:ICCV2021におけるVIPriors21アクション認識チャレンジの初出場

"Knights": First Place Submission for VIPriors21 Action Recognition Challenge at ICCV 2021 ( http://arxiv.org/abs/2110.07758v1 )

ライセンス: Link先を確認
Ishan Dave, Naman Biyani, Brandon Clark, Rohit Gupta, Yogesh Rawat and Mubarak Shah(参考訳) 本研究では,Kineetics-400 i.e. Kinetics400ViPriorsの小さなサブセットにおける動作認識タスクを,外部データを用いることなく解決する手法として,Knightsを提案する。 我々のアプローチには3つの主要な要素がある:最先端の時間的コントラスト 自己教師付き事前訓練、ビデオトランスフォーマーモデル、光フローモダリティ。 提案手法は, 標準テスト時間拡張法と合わせて, kinetics400vipriors テストセット上で 73% を達成し, データ効率の良いコンピュータビジョンの行動認識課題であるiccv 2021 の視覚インダクティブ・プリエントとして最良である。

This technical report presents our approach "Knights" to solve the action recognition task on a small subset of Kinetics-400 i.e. Kinetics400ViPriors without using any extra-data. Our approach has 3 main components: state-of-the-art Temporal Contrastive self-supervised pretraining, video transformer models, and optical flow modality. Along with the use of standard test-time augmentation, our proposed solution achieves 73% on Kinetics400ViPriors test set, which is the best among all of the other entries Visual Inductive Priors for Data-Efficient Computer Vision's Action Recognition Challenge, ICCV 2021.
翻訳日:2021-10-18 13:39:38 公開日:2021-10-14
# ADS-B技術に基づくハイブリッドディープラーニング予測法による4次元飛行軌道予測:ハーツフィールド・ジャクソン・アトランタ国際空港を事例として

4D flight trajectory prediction using a hybrid Deep Learning prediction method based on ADS-B technology: a case study of Hartsfield-Jackson Atlanta International Airport(ATL) ( http://arxiv.org/abs/2110.07774v1 )

ライセンス: Link先を確認
Hesam Sahfienya and Amelia C. Regan(参考訳) 飛行スケジュールの核心は軌道である。 特に、4D軌道は飛行特性予測において最も重要な要素である。 特に、4D軌道は飛行特性予測において最も重要な要素である。 各軌道は、予測過程を複雑にする不確実性に関連する空間的・時間的特徴を含む。 今日では航空輸送の需要が高まり、空港や航空会社が空港のインフラの可能性を最大限活用するためのスケジュールを整備することが義務付けられている。 これは高度な軌道予測法を用いて可能である。 本稿では,ハートスフィールド・ジャックソン・アトランタ国際空港(atl)の予測モデルの不確実性を考慮した,空間的・時間的特徴を抽出するための新しいハイブリッド深層学習モデルを提案する。 モデルへの入力として、自動依存監視ブロードキャスト(ADS-B)データを使用する。 この研究は3つのステップで行われます。 a) データ前処理 b) ハイブリッド畳み込みニューラルネットワークとGated Recurrent Unit(CNN-GRU)による3D-CNNモデルによる予測 (c)3番目のステップは,実験結果を比較することで,モデルの性能と提案モデルとの比較である。 深いモデルの不確かさは、モンテカルロドロップアウト(mcドロップアウト)を用いて考慮される。 ネットワーク層にMont-Carloドロップアウトを追加し、異なるニューロンを切り替える堅牢なアプローチによってモデルの予測性能を向上させる。 その結果,提案モデルは他のモデル(3D CNN, CNN-GRU)と比較して誤差が低いことがわかった。 mc-dropoutを持つモデルは、エラーを平均21パーセント削減する。

The core of any flight schedule is the trajectories. In particular, 4D trajectories are the most crucial component for flight attribute prediction. In particular, 4D trajectories are the most crucial component for flight attribute prediction. Each trajectory contains spatial and temporal features that are associated with uncertainties that make the prediction process complex. Today because of the increasing demand for air transportation, it is compulsory for airports and airlines to have an optimized schedule to use all of the airport's infrastructure potential. This is possible using advanced trajectory prediction methods. This paper proposes a novel hybrid deep learning model to extract the spatial and temporal features considering the uncertainty of the prediction model for Hartsfield-Jackson Atlanta International Airport(ATL). Automatic Dependent Surveillance-Broadca st (ADS-B) data are used as input to the models. This research is conducted in three steps: (a) data preprocessing; (b) prediction by a hybrid Convolutional Neural Network and Gated Recurrent Unit (CNN-GRU) along with a 3D-CNN model; (c) The third and last step is the comparison of the model's performance with the proposed model by comparing the experimental results. The deep model uncertainty is considered using the Mont-Carlo dropout (MC-Dropout). Mont-Carlo dropouts are added to the network layers to enhance the model's prediction performance by a robust approach of switching off between different neurons. The results show that the proposed model has low error measurements compared to the other models (i.e., 3D CNN, CNN-GRU). The model with MC-dropout reduces the error further by an average of 21 %.
翻訳日:2021-10-18 13:39:24 公開日:2021-10-14
# CNNロバストネスのインタラクティブ解析

Interactive Analysis of CNN Robustness ( http://arxiv.org/abs/2110.07667v1 )

ライセンス: Link先を確認
Stefan Sietzen, Mathias Lechner, Judy Borowski, Ramin Hasani, Manuela Waldner(参考訳) 畳み込みニューラルネットワーク(cnns)は画像関連タスクの最先端モデルとして広く採用されているが、その予測は人間の視覚が頑健な小さな入力摂動に非常に敏感であることが多い。 本稿では,CNNのアクティベーションと予測がインタラクティブな3D入力シーンでどのように進化するかをユーザが瞬時に知ることができるWebベースのアプリケーションPerturberを提案する。 パーターバーは、潜在的な脆弱性の発見を容易にするために、カメラコントロール、照明とシェーディング効果、背景修正、オブジェクトの変形、および敵の攻撃など、様々なシーン修正を提供している。 微調整されたモデルバージョンは、その堅牢性の質的な評価のために直接比較することができる。 機械学習の専門家によるケーススタディによると、perturberはモデルの脆弱性に関する仮説を素早く生成し、モデルの振る舞いを質的に比較するのに役立つ。 定量的分析により、他のCNNアーキテクチャや入力画像とユーザの洞察を再現し、敵対的に訓練されたモデルの脆弱性に関する新たな洞察を得ることができる。

While convolutional neural networks (CNNs) have found wide adoption as state-of-the-art models for image-related tasks, their predictions are often highly sensitive to small input perturbations, which the human vision is robust against. This paper presents Perturber, a web-based application that allows users to instantaneously explore how CNN activations and predictions evolve when a 3D input scene is interactively perturbed. Perturber offers a large variety of scene modifications, such as camera controls, lighting and shading effects, background modifications, object morphing, as well as adversarial attacks, to facilitate the discovery of potential vulnerabilities. Fine-tuned model versions can be directly compared for qualitative evaluation of their robustness. Case studies with machine learning experts have shown that Perturber helps users to quickly generate hypotheses about model vulnerabilities and to qualitatively compare model behavior. Using quantitative analyses, we could replicate users' insights with other CNN architectures and input images, yielding new insights about the vulnerability of adversarially trained models.
翻訳日:2021-10-18 13:21:13 公開日:2021-10-14
# 検索透明性のためのクエリの抽出

Exposing Query Identification for Search Transparency ( http://arxiv.org/abs/2110.07701v1 )

ライセンス: Link先を確認
Ruohan Li, Jianxiang Li, Bhaskar Mitra, Fernando Diaz, Asia J. Biega(参考訳) 検索システムは、ランク付けされたコンテンツの検索者への露出を制御する。 多くの場合、クリエーターはコンテンツの露出だけでなく、コンテンツが表面化されている特定の検索の理解も重視している。 どのクェリがランク付け結果に特定のコンテントを露出させるかを特定する問題は、重要で比較的未検討の検索透明性の課題である。 クエリの公開は,検索バイアス,プライバシ,データ保護,セキュリティ,検索エンジン最適化といったさまざまな問題の定量化に有用だ。 特定のシステムにおけるクエリの正確な識別は、特にWeb検索のような動的コンテキストにおいて、計算コストが高い。 より軽量な解を求めるため,2種類の検索システムにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとして近似型クエリ識別(EQI)の実現可能性を検討する。 次に,検索埋め込み空間上でのメトリック学習によって,このアプローチがいかに改善されるかを提案する。 さらに、クエリのランク付けの質を測定するための評価基準を導出するとともに、近似EQIの様々な実践的側面に着目した実証分析を行う。

Search systems control the exposure of ranked content to searchers. In many cases, creators value not only the exposure of their content but, moreover, an understanding of the specific searches where the content is surfaced. The problem of identifying which queries expose a given piece of content in the ranking results is an important and relatively under-explored search transparency challenge. Exposing queries are useful for quantifying various issues of search bias, privacy, data protection, security, and search engine optimization. Exact identification of exposing queries in a given system is computationally expensive, especially in dynamic contexts such as web search. In quest of a more lightweight solution, we explore the feasibility of approximate exposing query identification (EQI) as a retrieval task by reversing the role of queries and documents in two classes of search systems: dense dual-encoder models and traditional BM25 models. We then propose how this approach can be improved through metric learning over the retrieval embedding space. We further derive an evaluation metric to measure the quality of a ranking of exposing queries, as well as conducting an empirical analysis focusing on various practical aspects of approximate EQI.
翻訳日:2021-10-18 13:20:36 公開日:2021-10-14
# ニューラルデータルータ:変圧器の適応制御流によるシステム一般化の改善

The Neural Data Router: Adaptive Control Flow in Transformers Improves Systematic Generalization ( http://arxiv.org/abs/2110.07732v1 )

ライセンス: Link先を確認
R\'obert Csord\'as, Kazuki Irie, J\"urgen Schmidhuber(参考訳) 幅広いアプリケーションで成功したにもかかわらず、トランスフォーマーは体系的な一般化において限られた成功を収めている。 アルゴリズムタスクの場合、トランスフォーマー列で表されるグリッドにおいて、適切なタイミングで適切なノード/運用に関連情報をルーティングする直感的なソリューションを見つけるのに失敗することが多い。 有用な制御フローの学習を容易にするため,トランスフォーマーアーキテクチャ,コピーゲート,幾何学的注意の2つの改良を提案する。 提案するニューラル・データ・ルータ(NDR)は,従来の構成表検索タスクにおいて100%長の一般化精度を達成し,計算深度を越えた一般化のための簡易演算タスクとListOpsテストの新しい変種を提案する。 NDRの注意とゲーティングパターンは直感的な神経ルーティングとして解釈される傾向がある。 私たちのコードは公開されています。

Despite successes across a broad range of applications, Transformers have limited success in systematic generalization. The situation is especially frustrating in the case of algorithmic tasks, where they often fail to find intuitive solutions that route relevant information to the right node/operation at the right time in the grid represented by Transformer columns. To facilitate the learning of useful control flow, we propose two modifications to the Transformer architecture, copy gate and geometric attention. Our novel Neural Data Router (NDR) achieves 100% length generalization accuracy on the classic compositional table lookup task, as well as near-perfect accuracy on the simple arithmetic task and a new variant of ListOps testing for generalization across computational depth. NDR's attention and gating patterns tend to be interpretable as an intuitive form of neural routing. Our code is public.
翻訳日:2021-10-18 13:20:18 公開日:2021-10-14
# ディープラーニングモデルを用いた高レベルテキスト記述によるユーザインタフェースモックアップの作成

Creating User Interface Mock-ups from High-Level Text Descriptions with Deep-Learning Models ( http://arxiv.org/abs/2110.07775v1 )

ライセンス: Link先を確認
Forrest Huang, Gang Li, Xin Zhou, John F. Canny, Yang Li(参考訳) ユーザインタフェース(ui)の設計プロセスは、しばしばハイレベルな設計目標を明確にすることから始まる。 しかし、これらのハイレベルな設計目標を具体的な設計モックアップに変換するには、多大な労力とui設計の専門知識が必要です。 このプロセスを容易にするために、我々は3つのディープラーニング技術を導入し、高レベルの設計目標(例えば「画像などの表示をポップアップする」など)を記述する自然言語句から、低忠実度UIモックアップを作成する。 特に,2つの検索ベース手法と1つの生成手法,および生成したuiモックアップの品質を確保するための前処理と後処理技術を提案する。 各メソッドのコヒーレントで多様で関連するui設計モックアップを提案する能力を定量的に、質的に比較して比較する。 さらに,各手法の長所と短所を理解するために,15名のプロのui設計者および実践者を用いて評価を行った。 設計者は設計プロセスを支援するこれらの手法の可能性に肯定的に反応した。

The design process of user interfaces (UIs) often begins with articulating high-level design goals. Translating these high-level design goals into concrete design mock-ups, however, requires extensive effort and UI design expertise. To facilitate this process for app designers and developers, we introduce three deep-learning techniques to create low-fidelity UI mock-ups from a natural language phrase that describes the high-level design goal (e.g. "pop up displaying an image and other options"). In particular, we contribute two retrieval-based methods and one generative method, as well as pre-processing and post-processing techniques to ensure the quality of the created UI mock-ups. We quantitatively and qualitatively compare and contrast each method's ability in suggesting coherent, diverse and relevant UI design mock-ups. We further evaluate these methods with 15 professional UI designers and practitioners to understand each method's advantages and disadvantages. The designers responded positively to the potential of these methods for assisting the design process.
翻訳日:2021-10-18 13:20:00 公開日:2021-10-14
# 自律走行における安全対応政策最適化

Safety-aware Policy Optimisation for Autonomous Racing ( http://arxiv.org/abs/2110.07699v1 )

ライセンス: Link先を確認
Bingqing Chen, Jonathan Francis, James Herman, Jean Oh, Eric Nyberg, Sylvia L. Herbert(参考訳) 自律運転や補助ロボティクスのような安全クリティカルな応用のためには、自律エージェントは環境との相互作用を通じて安全性の制約に従わなければならない。 非安全性を含むサンプルを収集することで安全性を学ぶ代わりに、hamilton-jacobi (hj) のような手法は、システムダイナミクスのモデルを使って理論的に保証された安全なセットを計算する。 しかし、HJの到達性は高次元システムには拡張性がなく、モデルの品質が保証される。 本研究では,制約付きマルコフ決定過程(CMDP)にHJ到達可能性理論を注入し,状態-作用ペアのモデルフリー更新による安全性解析の制御理論的アプローチを提案する。 さらに,HJ安全性の値は,これまで研究されてきた高次元問題である視覚コンテキストに基づいて直接学習可能であることを示す。 我々は、最近リリースされた高忠実な自律走行環境であるSafety GymやLearning-to-Race(L2R )など、いくつかのベンチマークタスクについて評価を行った。 提案手法は、他の制約付きRLベースラインと比較して制約違反を著しく少なくし、L2Rベンチマークタスクにおける新しい最先端結果を達成する。

To be viable for safety-critical applications, such as autonomous driving and assistive robotics, autonomous agents should adhere to safety constraints throughout the interactions with their environments. Instead of learning about safety by collecting samples, including unsafe ones, methods such as Hamilton-Jacobi (HJ) reachability compute safe sets with theoretical guarantees using models of the system dynamics. However, HJ reachability is not scalable to high-dimensional systems, and the guarantees hinge on the quality of the model. In this work, we inject HJ reachability theory into the constrained Markov decision process (CMDP) framework, as a control-theoretical approach for safety analysis via model-free updates on state-action pairs. Furthermore, we demonstrate that the HJ safety value can be learned directly on vision context, the highest-dimensional problem studied via the method to-date. We evaluate our method on several benchmark tasks, including Safety Gym and Learn-to-Race (L2R), a recently-released high-fidelity autonomous racing environment. Our approach has significantly fewer constraint violations in comparison to other constrained RL baselines, and achieve the new state-of-the-art results on the L2R benchmark task.
翻訳日:2021-10-18 13:17:58 公開日:2021-10-14
# 大規模置換型単語感覚誘導

Large Scale Substitution-based Word Sense Induction ( http://arxiv.org/abs/2110.07681v1 )

ライセンス: Link先を確認
Matan Eyal, Shoval Sadde, Hillel Taub-Tabib, Yoav Goldberg(参考訳) 本稿では,事前学習されたマスキング言語モデル(MLM)に基づく単語センス誘導手法を提案する。 その結果、コーパス由来のセンスインベントリに従ってセンスタグ付けされ、各センスが指示語に関連付けられるコーパスとなる。 本手法を用いた英語ウィキペディアの評価では,Babelfy などの WSD 手法と比較しても,誘導された感覚とインスタンスごとの感覚代入の両方が高品質であることがわかった。 さらに、センスタグ付きコーパスに静的単語埋め込みアルゴリズムをトレーニングすることにより、高品質な静的意味埋め込みを得る。 既存のsenseful embeddedsテクニックをwicデータセットと、我々が開発した新しいoutlier detectionデータセットに上回っている。 このアルゴリズムのデータ駆動の性質は、科学領域のケーススタディを用いて示すように、標準的な感覚の在庫には現れないコーパス特有の感覚を誘導することができる。

We present a word-sense induction method based on pre-trained masked language models (MLMs), which can cheaply scale to large vocabularies and large corpora. The result is a corpus which is sense-tagged according to a corpus-derived sense inventory and where each sense is associated with indicative words. Evaluation on English Wikipedia that was sense-tagged using our method shows that both the induced senses, and the per-instance sense assignment, are of high quality even compared to WSD methods, such as Babelfy. Furthermore, by training a static word embeddings algorithm on the sense-tagged corpus, we obtain high-quality static senseful embeddings. These outperform existing senseful embeddings techniques on the WiC dataset and on a new outlier detection dataset we developed. The data driven nature of the algorithm allows to induce corpora-specific senses, which may not appear in standard sense inventories, as we demonstrate using a case study on the scientific domain.
翻訳日:2021-10-18 13:17:03 公開日:2021-10-14
# nlpモデルのロバスト性向上のためのスプリアス相関の同定と緩和

Identifying and Mitigating Spurious Correlations for Improving Robustness in NLP Models ( http://arxiv.org/abs/2110.07736v1 )

ライセンス: Link先を確認
Tianlu Wang, Diyi Yang, Xuezhi Wang(参考訳) 近年、NLPモデルは様々なタスクで顕著な進歩を遂げているが、堅牢でないことも批判されている。 多くの堅牢性問題は、スプリアス相関を利用したモデルや、トレーニングデータとタスクラベルの間のショートカットに起因する可能性がある。 モデルが分散外データへの一般化に失敗する場合や、トレーニングプロセスを通じて散発的な相関が悪用された場合、敵の攻撃に弱い場合があります。 本論文では,NLPモデルにおけるこのような素因的相関を大規模に同定することを目的とする。 まず,既存の解釈可能性手法を活用し,入力テキストからモデル決定プロセスに大きな影響を与えるトークンを抽出する。 次に,複数のコーパスにまたがるモデル予測を分析し,知識認識による摂動を通じてさらに検証することで,"生成"トークンと"純度"トークンを区別する。 提案手法は,スケーラブルな「ショートカット」の集合を効果的かつ効率的に同定し,複数のアプリケーションにおいてより堅牢なモデルに導かれることを示す。

Recently, NLP models have achieved remarkable progress across a variety of tasks; however, they have also been criticized for being not robust. Many robustness problems can be attributed to models exploiting spurious correlations, or shortcuts between the training data and the task labels. Models may fail to generalize to out-of-distribution data or be vulnerable to adversarial attacks if spurious correlations are exploited through the training process. In this paper, we aim to automatically identify such spurious correlations in NLP models at scale. We first leverage existing interpretability methods to extract tokens that significantly affect model's decision process from the input text. We then distinguish "genuine" tokens and "spurious" tokens by analyzing model predictions across multiple corpora and further verify them through knowledge-aware perturbations. We show that our proposed method can effectively and efficiently identify a scalable set of "shortcuts", and mitigating these leads to more robust models in multiple applications.
翻訳日:2021-10-18 13:16:47 公開日:2021-10-14
# スパース化平均推定における空間的・時間的相関の活用

Leveraging Spatial and Temporal Correlations in Sparsified Mean Estimation ( http://arxiv.org/abs/2110.07751v1 )

ライセンス: Link先を確認
Divyansh Jhunjhunwala, Ankur Mallick, Advait Gadhikar, Swanand Kadhe, Gauri Joshi(参考訳) 本研究では,複数のノードに分散したベクトル群(ノード毎に1ベクトル)の平均を中央サーバで推定する問題を検討する。 ベクトルが高次元の場合、ベクトル全体の送信の通信コストは制限的であり、スパーシフィケーション技術を使うことは必須である。 スパーシファイド平均推定(sparsified mean estimation)に関する既存の研究のほとんどは、データベクトルの特性とは無関係であるが、フェデレーション学習のような多くの実用的な応用では、空間的相関(異なるノードが送信するベクトルの類似性)や時間的相関(アルゴリズムの異なる反復で単一ノードが送信するデータとの類似性)がある。 これらの相関を利用して、サーバが使用する復号法を単純に修正して平均を推定する。 その結果,pca,k-means,ロジスティック回帰実験と同様に推定誤差の解析を行い,推定器がより洗練され高価なスパーシフィケーション法を一貫して上回っていることを示した。

We study the problem of estimating at a central server the mean of a set of vectors distributed across several nodes (one vector per node). When the vectors are high-dimensional, the communication cost of sending entire vectors may be prohibitive, and it may be imperative for them to use sparsification techniques. While most existing work on sparsified mean estimation is agnostic to the characteristics of the data vectors, in many practical applications such as federated learning, there may be spatial correlations (similarities in the vectors sent by different nodes) or temporal correlations (similarities in the data sent by a single node over different iterations of the algorithm) in the data vectors. We leverage these correlations by simply modifying the decoding method used by the server to estimate the mean. We provide an analysis of the resulting estimation error as well as experiments for PCA, K-Means and Logistic Regression, which show that our estimators consistently outperform more sophisticated and expensive sparsification methods.
翻訳日:2021-10-18 12:57:19 公開日:2021-10-14
# 非ディープネットワーク

Non-deep Networks ( http://arxiv.org/abs/2110.07641v1 )

ライセンス: Link先を確認
Ankit Goyal, Alexey Bochkovskiy, Jia Deng, Vladlen Koltun(参考訳) 深さはディープニューラルネットワークの特長である。 しかし、より深い深さはシーケンシャルな計算と高いレイテンシを意味する。 ハイパフォーマンスな"非ディープ"ニューラルネットワークを構築することは可能か? 私たちはそれが正しいことを示します。 そのため、別のレイヤを積み重ねるのではなく、並列サブネットワークを使用します。 これにより、高い性能を維持しながら、効果的に深さを減らすことができる。 パラレルサブストラクチャを利用することで,画像ネットの80%,cifar10の96%,cifar100の81%において,深さがわずか12のネットワークがトップ1の精度を達成できることを初めて示す。 また,低深度(12)のバックボーンを持つネットワークは,MS-COCOで48%のAPが得られることを示す。 設計のスケーリングルールを分析し、ネットワークの深さを変えることなくパフォーマンスを向上させる方法を示す。 最後に,非ディープネットワークが低遅延認識システムの構築にどのように使われるのか,概念実証を行う。 コードはhttps://github.com/i mankgoyal/NonDeepNet worksで入手できる。

Depth is the hallmark of deep neural networks. But more depth means more sequential computation and higher latency. This begs the question -- is it possible to build high-performing "non-deep" neural networks? We show that it is. To do so, we use parallel subnetworks instead of stacking one layer after another. This helps effectively reduce depth while maintaining high performance. By utilizing parallel substructures, we show, for the first time, that a network with a depth of just 12 can achieve top-1 accuracy over 80% on ImageNet, 96% on CIFAR10, and 81% on CIFAR100. We also show that a network with a low-depth (12) backbone can achieve an AP of 48% on MS-COCO. We analyze the scaling rules for our design and show how to increase performance without changing the network's depth. Finally, we provide a proof of concept for how non-deep networks could be used to build low-latency recognition systems. Code is available at https://github.com/i mankgoyal/NonDeepNet works.
翻訳日:2021-10-18 12:38:15 公開日:2021-10-14
# CCQA: モデル事前学習のための新しいWebスケール質問回答データセット

CCQA: A New Web-Scale Question Answering Dataset for Model Pre-Training ( http://arxiv.org/abs/2110.07731v1 )

ライセンス: Link先を確認
Patrick Huber, Armen Aghajanyan, Barlas O\u{g}uz, Dmytro Okhonko, Wen-tau Yih, Sonal Gupta, Xilun Chen(参考訳) 大規模事前学習言語モデルの普及に伴い、オープンドメイン質問回答(ODQA)はNLPにおいて重要な研究トピックとなっている。 一般的な事前学習アプローチに基づいて、大規模で自然で多様な質問応答(QA)データセットを使用したドメイン内事前学習がODQAにとって有益であると仮定する。 そこで本稿では,Common Crawlプロジェクトに基づく新しいQAデータセットを提案する。 利用可能なschema.orgアノテーションを用いて、約1億3000万の多言語問合せ対を抽出する。 これまでに見つからなかった自然QAペア数を用いて、質問応答タスクのための大規模ドメイン事前学習の可能性を示すために、人気のある言語モデルを事前訓練する。 実験の結果、CCQA(Common Crawl Question Answering dataset)の事前学習した質問回答モデルは、複数のタスク、モデル、ベンチマークをまたいだゼロショット、低リソース、微調整設定で有望な結果が得られることがわかった。

With the rise of large-scale pre-trained language models, open-domain question-answering (ODQA) has become an important research topic in NLP. Based on the popular pre-training fine-tuning approach, we posit that an additional in-domain pre-training stage using a large-scale, natural, and diverse question-answering (QA) dataset can be beneficial for ODQA. Consequently, we propose a novel QA dataset based on the Common Crawl project in this paper. Using the readily available schema.org annotation, we extract around 130 million multilingual question-answer pairs, including about 60 million English data-points. With this previously unseen number of natural QA pairs, we pre-train popular language models to show the potential of large-scale in-domain pre-training for the task of question-answering. In our experiments, we find that pre-training question-answering models on our Common Crawl Question Answering dataset (CCQA) achieves promising results in zero-shot, low resource and fine-tuned settings across multiple tasks, models and benchmarks.
翻訳日:2021-10-18 12:37:20 公開日:2021-10-14
# ミックスアップ型トレーニングのデータ依存度理解に向けて

Towards Understanding the Data Dependency of Mixup-style Training ( http://arxiv.org/abs/2110.07647v1 )

ライセンス: Link先を確認
Muthu Chidambaram, Xiang Wang, Yuzheng Hu, Chenwei Wu, Rong Ge(参考訳) mixupトレーニングパラダイムでは、モデルはデータポイントと関連するラベルの凸の組み合わせを使ってトレーニングされる。 トレーニング中の真のデータポイントはごくわずかだが、mixupを使ってトレーニングされたモデルは、元の経験的リスクを最小化し、標準的なトレーニングと比べて、さまざまなタスクにおいてより一般化し、堅牢性を示すように見える。 本稿では,これらのミックスアップ訓練の利点が,分類の文脈におけるデータの性質に依存するかを検討する。 元の経験的リスクを最小化するために、mixup-optimal分類のためのクローズドフォームを計算し、ミックスアップ損失を最小化することで、データの経験的損失を最小化しない分類器を学習できる単純なデータセットを構築することができる。 一方,ミックスアップトレーニングでは,経験的リスクを最小限に抑えるのに十分な条件も与える。 一般化のために、mixup分類器のマージンを特徴付け、これを用いて、mixup分類器の決定境界が標準トレーニングと比較してトレーニングデータの全体構造に適合する理由を理解する。 対照的に,線形モデルと線形分離データセットの大規模なクラスでは,ミックスアップトレーニングが標準トレーニングと同じ分類器を学習することにつながることも示されている。

In the Mixup training paradigm, a model is trained using convex combinations of data points and their associated labels. Despite seeing very few true data points during training, models trained using Mixup seem to still minimize the original empirical risk and exhibit better generalization and robustness on various tasks when compared to standard training. In this paper, we investigate how these benefits of Mixup training rely on properties of the data in the context of classification. For minimizing the original empirical risk, we compute a closed form for the Mixup-optimal classification, which allows us to construct a simple dataset on which minimizing the Mixup loss can provably lead to learning a classifier that does not minimize the empirical loss on the data. On the other hand, we also give sufficient conditions for Mixup training to also minimize the original empirical risk. For generalization, we characterize the margin of a Mixup classifier, and use this to understand why the decision boundary of a Mixup classifier can adapt better to the full structure of the training data when compared to standard training. In contrast, we also show that, for a large class of linear models and linearly separable datasets, Mixup training leads to learning the same classifier as standard training.
翻訳日:2021-10-18 12:34:36 公開日:2021-10-14
# 後見ネットワーククレジット割り当て:離散確率単位ネットワークにおける効率的なクレジット割り当て

Hindsight Network Credit Assignment: Efficient Credit Assignment in Networks of Discrete Stochastic Units ( http://arxiv.org/abs/2110.07700v1 )

ライセンス: Link先を確認
Kenny Young(参考訳) 離散確率変数を用いたニューラルネットワークのトレーニングは、ユニークな課題である。 バックプロパゲーションは直接適用されず、連続確率変数を持つネットワークで使用される再パラメータ化トリックも適用されない。 この課題に対処するために、離散確率単位のネットワークのための新しい学習アルゴリズムであるHindsight Network Credit Assignment (HNCA)を提案する。 HNCAは、ネットワーク内の直近の子供に影響を与える程度に基づいて、各ユニットにクレジットを割り当てる。 計算コストはバックプロパゲーションとよく似ているが, HNCA は REINFORCE 推定器と比較してばらつきを小さくして非バイアス勾配推定を行う。 まず, エージェントに未知の報酬関数を最適化するために, HNCAをコンテキスト的帯域設定に適用する。 本研究では,HNCAがREINFORCEを著しく上回っていることを実証的に示し,理論解析による分散低減が重要かつ影響が大きいことを示す。 次に、HNCAを拡張して、その関数がエージェントに知られている確率単位のネットワークの出力のより一般的な関数を最適化する方法を示す。 本稿では,この拡張版HNCAを用いて離散変分オートエンコーダを訓練し,他の強力な手法との比較を実証的に示す。 HNCAの根底にある考え方は、確率的計算グラフにおける効率的な信用割当に関する新しい考え方を刺激する助けになると信じている。

Training neural networks with discrete stochastic variables presents a unique challenge. Backpropagation is not directly applicable, nor are the reparameterization tricks used in networks with continuous stochastic variables. To address this challenge, we present Hindsight Network Credit Assignment (HNCA), a novel learning algorithm for networks of discrete stochastic units. HNCA works by assigning credit to each unit based on the degree to which its output influences its immediate children in the network. We prove that HNCA produces unbiased gradient estimates with reduced variance compared to the REINFORCE estimator, while the computational cost is similar to that of backpropagation. We first apply HNCA in a contextual bandit setting to optimize a reward function that is unknown to the agent. In this setting, we empirically demonstrate that HNCA significantly outperforms REINFORCE, indicating that the variance reduction implied by our theoretical analysis is significant and impactful. We then show how HNCA can be extended to optimize a more general function of the outputs of a network of stochastic units, where the function is known to the agent. We apply this extended version of HNCA to train a discrete variational auto-encoder and empirically show it compares favourably to other strong methods. We believe that the ideas underlying HNCA can help stimulate new ways of thinking about efficient credit assignment in stochastic compute graphs.
翻訳日:2021-10-18 12:34:13 公開日:2021-10-14
# globalwoz:マルチウォズをグローバル化する多言語タスク指向対話システム

GlobalWoZ: Globalizing MultiWoZ to Develop Multilingual Task-Oriented Dialogue Systems ( http://arxiv.org/abs/2110.07679v1 )

ライセンス: Link先を確認
Bosheng Ding, Junjie Hu, Lidong Bing, Sharifah Mahani Aljunied, Shafiq Joty, Luo Si, Chunyan Miao(参考訳) タスク指向対話(ToD)システムの最近の進歩は、トレーニングのために複数のドメインにまたがるアノテーションデータによって進められている。 ここ数年,多言語対応のToDシステムに対するデータキュレーションへの動きが,さまざまな言語を話す人々への提供に応用されている。 しかしながら、既存の多言語todデータセットは、データキュレーションのコストが高いため、言語の範囲が限られているか、あるいはこれらの言語を話す国では対話エンティティがほとんど存在しないという事実を無視している。 これらの制約に対処するために,我々は,英語todデータセットからグローバル化された大規模多言語todデータセットであるglobalwozを生成する新しいデータキュレーション手法を提案する。 本手法は,対話テンプレートの翻訳と,対象国におけるローカルエンティティの充填に基づく。 我々はデータセットと強力なベースラインのセットを公開し、実際のユースケースにおける多言語ToDシステムの学習を奨励します。

Much recent progress in task-oriented dialogue (ToD) systems has been driven by available annotation data across multiple domains for training. Over the last few years, there has been a move towards data curation for multilingual ToD systems that are applicable to serve people speaking different languages. However, existing multilingual ToD datasets either have a limited coverage of languages due to the high cost of data curation, or ignore the fact that dialogue entities barely exist in countries speaking these languages. To tackle these limitations, we introduce a novel data curation method that generates GlobalWoZ -- a large-scale multilingual ToD dataset globalized from an English ToD dataset for three unexplored use cases. Our method is based on translating dialogue templates and filling them with local entities in the target-language countries. We release our dataset as well as a set of strong baselines to encourage research on learning multilingual ToD systems for real use cases.
翻訳日:2021-10-18 12:12:52 公開日:2021-10-14
# 正しい理由のための文書レベル情報抽出法

Making Document-Level Information Extraction Right for the Right Reasons ( http://arxiv.org/abs/2110.07686v1 )

ライセンス: Link先を確認
Liyan Tang, Dhruv Rajan, Suyash Mohan, Abhijeet Pradhan, R. Nick Bryan, Greg Durrett(参考訳) 文書レベルの情報抽出は、情報が必ずしも1つの文でローカライズされないアプリケーションと互換性のある柔軟なフレームワークである。 例えば、放射線学における診断の重要な特徴は、報告が明確に述べられていないかもしれないが、それでもレポートのテキストから推測することができる。 しかし、文書レベルのニューラルモデルは、関係のない情報から素早い相関を簡単に学習することができる。 この研究は、これらのモデルが複雑なテキストから正しい推論を行い、監査可能な方法で推論することを保証する方法について研究している。 特徴帰属手法を用いた予測検証フレームワークにおけるポストホックエビデンス抽出の実験を行った。 この基本的なアプローチは合理的な証拠を抽出することができるが、訓練中に少量の証拠監督によって正規化することができ、抽出された証拠の品質が大幅に向上する。 脳MRIの小さなラベル付きデータセットとDocREDの大規模な修正版(Yao et al., 2019)の2つの領域で評価を行い、精度を損なうことなくモデルの妥当性が向上できることを示した。

Document-level information extraction is a flexible framework compatible with applications where information is not necessarily localized in a single sentence. For example, key features of a diagnosis in radiology a report may not be explicitly stated, but nevertheless can be inferred from the report's text. However, document-level neural models can easily learn spurious correlations from irrelevant information. This work studies how to ensure that these models make correct inferences from complex text and make those inferences in an auditable way: beyond just being right, are these models "right for the right reasons?" We experiment with post-hoc evidence extraction in a predict-select-verif y framework using feature attribution techniques. While this basic approach can extract reasonable evidence, it can be regularized with small amounts of evidence supervision during training, which substantially improves the quality of extracted evidence. We evaluate on two domains: a small-scale labeled dataset of brain MRI reports and a large-scale modified version of DocRED (Yao et al., 2019) and show that models' plausibility can be improved with no loss in accuracy.
翻訳日:2021-10-18 12:12:35 公開日:2021-10-14
# (参考訳) 言語横断型「フェイクニュース」発見 [全文訳有]

Cross-lingual COVID-19 Fake News Detection ( http://arxiv.org/abs/2110.06495v2 )

ライセンス: CC BY 4.0
Jiangshu Du, Yingtong Dou, Congying Xia, Limeng Cui, Jing Ma, Philip S. Yu(参考訳) 新型コロナウイルスのパンデミックは世界の公衆衛生に大きな脅威をもたらす。 一方、根拠のない、あるいは科学的でない主張を主張するパンデミックに関連する大量の誤報がある。 新型コロナウイルス(COVID-19)の誤報は英語で報告されているが、一部の未修正の誤報は依然として他の言語で流布しており、移民社会や発展途上国の低インフォームの人々の健康を脅かしている。 本稿は,高リソース言語(英語)で事実チェックされたニュースのみを用いて,低リソース言語(中国語)における新型コロナウイルスの誤情報を初めて検出する試みである。 まずは、既存の事実チェック情報に基づいて、中国のリアル&フェイクニュースデータセットをキュレートする。 そこで我々はCrossFakeという深層学習フレームワークを提案する。 実験結果は,クロスランガル設定下でのCrossFakeの有効性を示すとともに,モノリンガルおよびクロスランガルのフェイクニュース検出器よりも優れていた。 データセットはhttps://github.com/y ingtongdou/crossfake で入手できる。

The COVID-19 pandemic poses a great threat to global public health. Meanwhile, there is massive misinformation associated with the pandemic which advocates unfounded or unscientific claims. Even major social media and news outlets have made an extra effort in debunking COVID-19 misinformation, most of the fact-checking information is in English, whereas some unmoderated COVID-19 misinformation is still circulating in other languages, threatening the health of less-informed people in immigrant communities and developing countries. In this paper, we make the first attempt to detect COVID-19 misinformation in a low-resource language (Chinese) only using the fact-checked news in a high-resource language (English). We start by curating a Chinese real&fake news dataset according to existing fact-checking information. Then, we propose a deep learning framework named CrossFake to jointly encode the cross-lingual news body texts and capture the news content as much as possible. Empirical results on our dataset demonstrate the effectiveness of CrossFake under the cross-lingual setting and it also outperforms several monolingual and cross-lingual fake news detectors. The dataset is available at https://github.com/Y ingtongDou/CrossFake .
翻訳日:2021-10-18 11:44:19 公開日:2021-10-14
# (参考訳) 能動物体分類のための深層強化学習に基づく次回のベストビュー推定 [全文訳有]

Next-Best-View Estimation based on Deep Reinforcement Learning for Active Object Classification ( http://arxiv.org/abs/2110.06766v2 )

ライセンス: CC BY 4.0
Christian Korbach, Markus D. Solbach, Raphael Memmesheimer, Dietrich Paulus, John K. Tsotsos(参考訳) 一つの視点からの画像データの提示と分析は、しばしばタスクを解くのに不十分である。 より多くの情報を得るためにはいくつかの視点が必要である。 次回のベストビュー問題は、基礎となるタスクに対して最大の情報ゲインを持つ最適な視点を見出そうとする。 本研究では,ロボットアームが対象物をエンドエフェクタに保持し,その対象を明確に識別する次回のベストビューのシーケンスを検索する。 我々は、深層強化学習の手法であるSoft Actor-Critic (SAC) を用いて、特定の対象に対する次のベストビューを学習する。 評価は、エージェントがロボットアームがオブジェクトを動かすべきポーズを決定することを学習できることを示しています。 これにより、そのようなオブジェクトと他のオブジェクトをよりよく区別するより正確な予測を提供する視点が導かれる。 私たちはこのコードを科学コミュニティと再現性のために公開しています。

The presentation and analysis of image data from a single viewpoint are often not sufficient to solve a task. Several viewpoints are necessary to obtain more information. The next-best-view problem attempts to find the optimal viewpoint with the greatest information gain for the underlying task. In this work, a robot arm holds an object in its end-effector and searches for a sequence of next-best-view to explicitly identify the object. We use Soft Actor-Critic (SAC), a method of deep reinforcement learning, to learn these next-best-views for a specific set of objects. The evaluation shows that an agent can learn to determine an object pose to which the robot arm should move an object. This leads to a viewpoint that provides a more accurate prediction to distinguish such an object from other objects better. We make the code publicly available for the scientific community and for reproducibility.
翻訳日:2021-10-18 11:07:24 公開日:2021-10-14
# マルチターン対話生成のための話者対応並列階層型注意エンコーダモデル

A Speaker-aware Parallel Hierarchical Attentive Encoder-Decoder Model for Multi-turn Dialogue Generation ( http://arxiv.org/abs/2110.06823v2 )

ライセンス: Link先を確認
Zihao Wang, Ming Jiang, Junli Wang(参考訳) 本稿では,マルチターン会話における話者の区別を強調するオープンドメイン対話生成モデルを提案する。 会話履歴の内容にのみ依存して応答を生成する先行研究から、発話間の相対的社会的関係(つまり、同じ話者または異なる人物によって生成される)の獲得は、会話履歴からきめ細かなコンテキスト情報を捕捉し、生成した応答におけるコンテキストコヒーレンスを改善するマシンの利点であると主張している。 そこで本研究では,各発話を話者の認識と文脈的関連によりモデル化することを目的とした,話者認識型階層型注意エンコーダ・デコーダ(phaed)モデルを提案する。 具体的には、2人の話者による会話において、ある話者からの発話を応答として、もう一方の話者からの発話をクエリとして考慮する。 インナークエリーとインタークエリーエンコーディングでクエリーを理解した後、デコーダは、エンコーダによってそれらを再構築するのではなく、以前に生成された応答の隠された状態を再利用し、新しい応答を生成する。 実験の結果,PHAEDは自動評価と人的評価の両面で最先端の成績を示した。 さらに, 話者トークンを用いた対話モデルでは, 会話コンテキストに関する非コヒーレントな応答を生成する可能性が一般的に低下することを示した。

This paper presents a novel open-domain dialogue generation model emphasizing the differentiation of speakers in multi-turn conversations. Differing from prior work that solely relies on the content of conversation history to generate a response, we argue that capturing relative social relations among utterances (i.e., generated by either the same speaker or different persons) benefits the machine capturing fine-grained context information from a conversation history to improve context coherence in the generated response. Given that, we propose a speaker-aware Parallel Hierarchical Attentive Encoder-Decoder (PHAED) model that aims to model each utterance with the awareness of its speaker and contextual associations with the same speaker's previous messages. Specifically, in a conversation involving two speakers, we regard the utterances from one speaker as responses and those from the other as queries. After understanding queries via our encoder with inner-query and inter-query encodings, our decoder reuses the hidden states of previously generated responses, instead of reconstructing these by the encoder, to generate a new response. Our empirical results show that PHAED outperforms the state-of-the-art in both automatic and human evaluations. Furthermore, our ablation study shows that dialogue models with speaker tokens can generally decrease the possibility of generating non-coherent responses regarding the conversation context.
翻訳日:2021-10-18 10:28:10 公開日:2021-10-14
# シミュレーションに基づく推論における危機回避

Averting A Crisis In Simulation-Based Inference ( http://arxiv.org/abs/2110.06581v2 )

ライセンス: Link先を確認
Joeri Hermans, Arnaud Delaunoy, Fran\c{c}ois Rozet, Antoine Wehenkel, Gilles Louppe(参考訳) 本研究では,現在のベイズシミュレーションに基づく推論アルゴリズムが,科学的探究のファルシフィシズム手法に不十分であることを示す広範な実証的証拠を示す。 数ヵ月間の実験計算の結果から,すべてのベンチマークアルゴリズム – (s)npe, (s)nre, snl および abc の変種 – が,自信過剰な後方近似を生成する可能性があることが判明した。 この問題に対処できないことは、シミュレーションベースの推論において、十分に確立された信頼危機につながると考えています。 このため,保存的近似推論アルゴリズムの理論的・方法論的展開を考察し,研究の方向性を述べるべきである。 この点に関して、アンサンブルは一貫してより信頼できるという実証的な証拠を示す。

We present extensive empirical evidence showing that current Bayesian simulation-based inference algorithms are inadequate for the falsificationist methodology of scientific inquiry. Our results collected through months of experimental computations show that all benchmarked algorithms -- (S)NPE, (S)NRE, SNL and variants of ABC -- may produce overconfident posterior approximations, which makes them demonstrably unreliable and dangerous if one's scientific goal is to constrain parameters of interest. We believe that failing to address this issue will lead to a well-founded trust crisis in simulation-based inference. For this reason, we argue that research efforts should now consider theoretical and methodological developments of conservative approximate inference algorithms and present research directions towards this objective. In this regard, we show empirical evidence that ensembles are consistently more reliable.
翻訳日:2021-10-18 10:27:13 公開日:2021-10-14
# (参考訳) レーン検出のためのハイブリッド時空間深層学習アーキテクチャ [全文訳有]

A Hybrid Spatial-temporal Deep Learning Architecture for Lane Detection ( http://arxiv.org/abs/2110.04079v2 )

ライセンス: CC BY 4.0
Yongqi Dong, Sandeep Patil, Bart van Arem, Haneen Farah(参考訳) 信頼性と正確な車線検出は、車線維持支援システムと車線分割警報システムの安全性能にとって極めて重要である。 しかし、特定の困難な特異な状況下では、現在の文献でよく見られる1枚の画像から正確に車線を検出できるような十分な性能を得ることは困難である。 レーンマーキングは連続線であるため、前のフレームからの情報が組み込まれた場合、単一の電流画像で正確に検出できないレーンをより正確に推定することができる。 本研究は,複数の連続画像フレームにおける空間時空間情報をフル活用して,最後の電流フレームにおけるレーンマーキングを検出するハイブリッド時空間シーケンス対1深層学習アーキテクチャを提案する。 Specifically, the hybrid model integrates the single image feature extraction module with the spatial convolutional neural network (SCNN) embedded for excavating spatial features and relationships in one single image, the spatial-temporal feature integration module with spatial-temporal recurrent neural network (ST-RNN), which can capture the spatial-temporal correlations and time dependencies among image sequences, and the encoder-decoder structure, which makes this image segmentation problem work in an end-to-end supervised learning format. 大規模な実験により,提案モデルでは,挑戦的な走行シーンを効果的に処理し,最先端の手法よりも広いマージンで性能を向上できることがわかった。

Reliable and accurate lane detection is of vital importance for the safe performance of Lane Keeping Assistance and Lane Departure Warning systems. However, under certain challenging peculiar circumstances, it is difficult to get satisfactory performance in accurately detecting the lanes from one single image which is often the case in current literature. Since lane markings are continuous lines, the lanes that are difficult to be accurately detected in the single current image can potentially be better deduced if information from previous frames is incorporated. This study proposes a novel hybrid spatial-temporal sequence-to-one deep learning architecture making full use of the spatial-temporal information in multiple continuous image frames to detect lane markings in the very last current frame. Specifically, the hybrid model integrates the single image feature extraction module with the spatial convolutional neural network (SCNN) embedded for excavating spatial features and relationships in one single image, the spatial-temporal feature integration module with spatial-temporal recurrent neural network (ST-RNN), which can capture the spatial-temporal correlations and time dependencies among image sequences, and the encoder-decoder structure, which makes this image segmentation problem work in an end-to-end supervised learning format. Extensive experiments reveal that the proposed model can effectively handle challenging driving scenes and outperforms available state-of-the-art methods with a large margin.
翻訳日:2021-10-17 15:04:49 公開日:2021-10-14
# (参考訳) ゼロショット学習のための領域セマンティックアライズドネットワーク [全文訳有]

Region Semantically Aligned Network for Zero-Shot Learning ( http://arxiv.org/abs/2110.07130v1 )

ライセンス: CC BY 4.0
Ziyang Wang, Yunhao Gou, Jingjing Li, Yu Zhang, Yang Yang(参考訳) zero-shot learning (zsl) は目に見えないクラスの知識に基づいて認識することを目的としている。 従来は,グローバルな特徴から意味空間への直接埋め込みの学習に焦点が当てられていた。 しかし、見知らぬクラスは、ローカルな視覚的特徴と、見知らぬクラスの集合を共有し、グローバルな視覚的特徴を活用することで、知識伝達を効果的にしない。 この問題に対処するために,未確認クラスの局所的特徴をそれらの意味属性にマッピングする地域意味ネットワーク(RSAN)を提案する。 画像エンコーダの後に平均プーリング層によって得られる大域的な特徴を利用する代わりに、画像の局所的な情報を保持する画像エンコーダの出力を直接利用する。 具体的には、出力の特定の領域から各属性を取得し、これらの属性を認識に活用する。 その結果、参照されるクラスの知識は、リージョンベースで、未取得のクラスにうまく移行できる。 さらに,属性回帰と意味知識を用いて画像エンコーダを正則化し,ロバストで属性関連の視覚特徴を抽出する。 いくつかの標準的なzslデータセットにおける実験により、提案されたrsan法の利点が明らかになった。

Zero-shot learning (ZSL) aims to recognize unseen classes based on the knowledge of seen classes. Previous methods focused on learning direct embeddings from global features to the semantic space in hope of knowledge transfer from seen classes to unseen classes. However, an unseen class shares local visual features with a set of seen classes and leveraging global visual features makes the knowledge transfer ineffective. To tackle this problem, we propose a Region Semantically Aligned Network (RSAN), which maps local features of unseen classes to their semantic attributes. Instead of using global features which are obtained by an average pooling layer after an image encoder, we directly utilize the output of the image encoder which maintains local information of the image. Concretely, we obtain each attribute from a specific region of the output and exploit these attributes for recognition. As a result, the knowledge of seen classes can be successfully transferred to unseen classes in a region-bases manner. In addition, we regularize the image encoder through attribute regression with a semantic knowledge to extract robust and attribute-related visual features. Experiments on several standard ZSL datasets reveal the benefit of the proposed RSAN method, outperforming state-of-the-art methods.
翻訳日:2021-10-16 05:57:43 公開日:2021-10-14
# (参考訳) bert2BERT: 再利用可能な事前トレーニング言語モデルを目指して [全文訳有]

bert2BERT: Towards Reusable Pretrained Language Models ( http://arxiv.org/abs/2110.07143v1 )

ライセンス: CC BY 4.0
Cheng Chen, Yichun Yin, Lifeng Shang, Xin Jiang, Yujia Qin, Fengyu Wang, Zhi Wang, Xiao Chen, Zhiyuan Liu, Qun Liu(参考訳) 近年、研究者はより広い言語モデルを事前訓練し、深層モデルの上限を探索する傾向にある。 しかし、大規模言語モデル事前学習のコストは計算資源の集約化に費やされ、ほとんどのモデルは既存の事前学習モデルを再利用せずにゼロから訓練される。 本稿では,既存の小さな事前学習モデル(例えばBERT_BASE)の知識をパラメータ初期化により大規模モデル(例えばBERT_LARGE)に効果的に移行し,大規模モデルの事前学習効率を大幅に向上させるbert2BERTを提案する。 具体的には,トランスフォーマーに基づく言語モデル上での関数保存を拡張し,大規模モデルの初期化に関する高度な知識を提案することにより,さらに改良する。 さらに,2段階事前訓練法を提案し,トレーニングプロセスをさらに加速させた。 我々は代表的なplm(例えばbertとgpt)について広範な実験を行い、(1)本手法はスクラッチ、スタックバート、msltからの学習を含むベースラインと比較してかなりのトレーニングコストを削減できることを実証した。 特に、bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。 ソースコードは公開時には公開される予定だ。

In recent years, researchers tend to pre-train ever-larger language models to explore the upper limit of deep models. However, large language model pre-training costs intensive computational resources and most of the models are trained from scratch without reusing the existing pre-trained models, which is wasteful. In this paper, we propose bert2BERT, which can effectively transfer the knowledge of an existing smaller pre-trained model (e.g., BERT_BASE) to a large model (e.g., BERT_LARGE) through parameter initialization and significantly improve the pre-training efficiency of the large model. Specifically, we extend the previous function-preserving on Transformer-based language model, and further improve it by proposing advanced knowledge for large model's initialization. In addition, a two-stage pre-training method is proposed to further accelerate the training process. We did extensive experiments on representative PLMs (e.g., BERT and GPT) and demonstrate that (1) our method can save a significant amount of training cost compared with baselines including learning from scratch, StackBERT and MSLT; (2) our method is generic and applicable to different types of pre-trained models. In particular, bert2BERT saves about 45% and 47% computational cost of pre-training BERT_BASE and GPT_BASE by reusing the models of almost their half sizes. The source code will be publicly available upon publication.
翻訳日:2021-10-16 05:39:57 公開日:2021-10-14
# (参考訳) 組織像に対する教師なしデータ駆動核セグメンテーション [全文訳有]

Unsupervised Data-Driven Nuclei Segmentation For Histology Images ( http://arxiv.org/abs/2110.07147v1 )

ライセンス: CC BY 4.0
Vasileios Magoulianitis, Peida Han, Yijing Yang, C.-C. Jay Kuo(参考訳) 本研究は,cbmと呼ばれる組織像に対する教師なしデータ駆動核分割法を提案する。 CBMは以下の3つのモジュールから構成される。 1)エネルギー圧縮と次元縮小のためのデータ駆動カラー変換 2)データ駆動バイナライゼーション,及び 3)形態素処理による幾何学的事前化 CBMは、"Color transform"、"Binarization"、"Morphological Processing"の3つのモジュールの最初の文字から来ている。 monusegデータセットの実験は、提案するcbm法の有効性を検証する。 CBMは、他の教師なしの手法よりも優れており、AJI(Aggregated Jaccard Index)メトリックに基づいた教師付きモデルの間で競争力がある。

An unsupervised data-driven nuclei segmentation method for histology images, called CBM, is proposed in this work. CBM consists of three modules applied in a block-wise manner: 1) data-driven color transform for energy compaction and dimension reduction, 2) data-driven binarization, and 3) incorporation of geometric priors with morphological processing. CBM comes from the first letter of the three modules - "Color transform", "Binarization" and "Morphological processing". Experiments on the MoNuSeg dataset validate the effectiveness of the proposed CBM method. CBM outperforms all other unsupervised methods and offers a competitive standing among supervised models based on the Aggregated Jaccard Index (AJI) metric.
翻訳日:2021-10-16 05:00:23 公開日:2021-10-14
# (参考訳) MoFE:抽象要約における幻覚制御の専門家の混在 [全文訳有]

MoFE: Mixture of Factual Experts for Controlling Hallucinations in Abstractive Summarization ( http://arxiv.org/abs/2110.07166v1 )

ライセンス: CC BY 4.0
Prafulla Kumar Choubey, Jesse Vig, Wenhao Liu, Nazneen Fatema Rajani(参考訳) 神経抽象的要約モデルは、幻覚として知られる現象である事実的に一貫性のないコンテンツを生成する傾向がある。 これにより、現実世界のアプリケーションにおけるこれらのシステムのユーザビリティと採用が制限される。 幻覚の出現を減らすために,複数の要約専門家を組み合わせ,それぞれが特定の種類のエラーをターゲットとするMixture of Factual Experts (MoFE)モデルを提案する。 我々は、強化学習(RL)を使用して専門家を訓練し、2つの事実整合性メトリクス、すなわちエンティティの重複と依存性のアークの誤差を最小限にする。 筆者らは,二つのアンサンブル戦略(ウェイトとロジット)を併用してMoFEを構築し,それらを2つの要約データセット(XSUMとCNN/DM)で評価する。 BARTモデルを用いた実験により,MoFEは標準的なROUGE測定値に顕著な性能低下を伴わずに,エンティティオーバーラップと依存性のアーク包含の両方に応じて性能を向上することが示された。 パフォーマンス改善はまた、ソースドキュメントに関する質問応答に基づく事実性評価メトリックやbertscore精度など、未認識の事実整合性メトリクスに転送される。

Neural abstractive summarization models are susceptible to generating factually inconsistent content, a phenomenon known as hallucination. This limits the usability and adoption of these systems in real-world applications. To reduce the presence of hallucination, we propose the Mixture of Factual Experts (MoFE) model, which combines multiple summarization experts that each target a specific type of error. We train our experts using reinforcement learning (RL) to minimize the error defined by two factual consistency metrics: entity overlap and dependency arc entailment. We construct MoFE by combining the experts using two ensembling strategies (weights and logits) and evaluate them on two summarization datasets (XSUM and CNN/DM). Our experiments on BART models show that the MoFE improves performance according to both entity overlap and dependency arc entailment, without a significant performance drop on standard ROUGE metrics. The performance improvement also transfers to unseen factual consistency metrics, such as question answer-based factuality evaluation metric and BERTScore precision with respect to the source document.
翻訳日:2021-10-16 04:51:04 公開日:2021-10-14
# (参考訳) 単語センスの曖昧さ改善のための文脈グロス強化 [全文訳有]

Context-gloss Augmentation for Improving Word Sense Disambiguation ( http://arxiv.org/abs/2110.07174v1 )

ライセンス: CC BY 4.0
Guan-Ting Lin, Manuel Giambi(参考訳) Word Sense Disambiguation (WSD)の目標は、特定の文脈において多文単語の感覚を特定することである。 BERTを用いたディープラーニング技術は、この分野において非常に有望な成果を上げており、構造化知識の統合と性能向上のための様々な手法が提案されている。 同時に、NLPタスクに有用なデータ拡張技術が増えていることが証明されている。 BERTとWordNetの知識を活用した以前の研究に基づいて、WSDの性能を改善するために、コンテキストグロスペア上で異なるデータ拡張手法を探索する。 本実験では,文レベルと単語レベルの拡張手法がWSDの効果的な戦略であることを示す。 また,語彙知識ベースから得られるハイパーニムのグルースを付加することで,性能を向上できることがわかった。 我々は,異なる文脈グロス増補手法を比較し,分析した結果,光沢への逆翻訳が最善であることが示された。

The goal of Word Sense Disambiguation (WSD) is to identify the sense of a polysemous word in a specific context. Deep-learning techniques using BERT have achieved very promising results in the field and different methods have been proposed to integrate structured knowledge to enhance performance. At the same time, an increasing number of data augmentation techniques have been proven to be useful for NLP tasks. Building upon previous works leveraging BERT and WordNet knowledge, we explore different data augmentation techniques on context-gloss pairs to improve the performance of WSD. In our experiment, we show that both sentence-level and word-level augmentation methods are effective strategies for WSD. Also, we find out that performance can be improved by adding hypernyms' glosses obtained from a lexical knowledge base. We compare and analyze different context-gloss augmentation techniques, and the results show that applying back translation on gloss performs the best.
翻訳日:2021-10-16 04:30:43 公開日:2021-10-14
# (参考訳) 記号的知識蒸留 : 一般言語モデルから常識モデルへ [全文訳有]

Symbolic Knowledge Distillation: from General Language Models to Commonsense Models ( http://arxiv.org/abs/2110.07178v1 )

ライセンス: CC BY 4.0
Peter West, Chandra Bhagavatula, Jack Hessel, Jena D. Hwang, Liwei Jiang, Ronan Le Bras, Ximing Lu, Sean Welleck, Yejin Choi(参考訳) コモンセンスモデルのトレーニングの一般的な実践は、コモンセンスモデルをトレーニングするためにコモンセンス知識グラフを作成する人間から体から機械へと移行した。 本研究では,汎用言語モデルから汎用言語モデルへの代替として,コモンセンスモデルを学習するためのコモンセンス知識グラフを作成する。 本研究はシンボリック・ナレッジ蒸留という新しい枠組みを導く。 知識蒸留の先行技術 (Hinton et al., 2015) と同様に、我々のアプローチはより大きなモデルを使ってより小さなモデルを教える。 重要な違いは、神経モデルに加え、テキストとして知識を象徴的に蒸留することです。 また,一般言語モデル教師の共通性という側面のみを抽出し,生徒を共通性モデルという別の型にすることを可能にした。 また、注意深いプロンプトエンジニアリングと個別に訓練された批評家モデルにより、汎用言語モデルであるGPT-3から高品質な因果コモンセンスを選択的に蒸留できることを示す。 実証実験の結果、人間によって書かれたコモンセンス知識グラフは、量、品質、多様性の3つの基準において、我々の自動蒸留変種に取って代わられた。 さらに、100倍のサイズのにもかかわらず、教師モデルのコモンセンス能力を上回る神経コモンセンスモデルが得られる。 我々はこれをATOMICリソースに適用し、新しいシンボリック知識グラフとコモンセンスモデルを共有する。

The common practice for training commonsense models has gone from-human-to-corpus -to-machine: humans author commonsense knowledge graphs in order to train commonsense models. In this work, we investigate an alternative, from-machine-to-corp us-to-machine: general language models author these commonsense knowledge graphs to train commonsense models. Our study leads to a new framework, Symbolic Knowledge Distillation. As with prior art in Knowledge Distillation (Hinton et al., 2015), our approach uses larger models to teach smaller models. A key difference is that we distill knowledge symbolically-as text-in addition to the neural model. We also distill only one aspect-the commonsense of a general language model teacher, allowing the student to be a different type, a commonsense model. Altogether, we show that careful prompt engineering and a separately trained critic model allow us to selectively distill high-quality causal commonsense from GPT-3, a general language model. Empirical results demonstrate that, for the first time, a human-authored commonsense knowledge graph is surpassed by our automatically distilled variant in all three criteria: quantity, quality, and diversity. In addition, it results in a neural commonsense model that surpasses the teacher model's commonsense capabilities despite its 100x smaller size. We apply this to the ATOMIC resource, and share our new symbolic knowledge graph and commonsense models.
翻訳日:2021-10-16 04:23:38 公開日:2021-10-14
# (参考訳) ユーザプロファイリングのための関係認識不均一グラフ [全文訳有]

Relation-aware Heterogeneous Graph for User Profiling ( http://arxiv.org/abs/2110.07181v1 )

ライセンス: CC BY 4.0
Qilong Yan, Yufeng Zhang, Qiang Liu, Shu Wu, Liang Wang(参考訳) ユーザプロファイリングは長い間、多くの実際のアプリケーションにおけるユーザの関心を調査する重要な問題でした。 最近の研究では、ユーザとその相互作用したオブジェクトをグラフのエンティティとみなし、問題をノード分類タスクに変換する。 しかし、ユーザがアイテムをクリックしたり、ユーザがアイテムを購入するなど、異なるインタラクションタイプの違いを無視しているため、そのような情報をうまく組み込むことはできない。 これらの問題を解決するために,ユーザ・プロファイリングのための関係認識型不均質グラフ法(relation-aware hetero graph method)の活用を提案する。 我々は、異種メッセージパッシングのためのトランスフォーマー方式でクエリ、キー、値のメカニズムを採用し、エンティティ同士が効果的に対話できるようにする。 このようなインタラクションを異なる関係型上で行うことで,ユーザプロファイル予測のためのリッチな情報を用いた表現を生成できる。 実世界の2つのeコマースデータセットの実験を行い、我々のアプローチの大幅なパフォーマンス向上を観察する。

User profiling has long been an important problem that investigates user interests in many real applications. Some recent works regard users and their interacted objects as entities of a graph and turn the problem into a node classification task. However, they neglect the difference of distinct interaction types, e.g. user clicks an item v.s.user purchases an item, and thus cannot incorporate such information well. To solve these issues, we propose to leverage the relation-aware heterogeneous graph method for user profiling, which also allows capturing significant meta relations. We adopt the query, key, and value mechanism in a transformer fashion for heterogeneous message passing so that entities can effectively interact with each other. Via such interactions on different relation types, our model can generate representations with rich information for the user profile prediction. We conduct experiments on two real-world e-commerce datasets and observe a significant performance boost of our approach.
翻訳日:2021-10-16 03:59:37 公開日:2021-10-14
# (参考訳) 中間デコーダ層における高次特徴の摂動による逆例 [全文訳有]

Adversarial examples by perturbing high-level features in intermediate decoder layers ( http://arxiv.org/abs/2110.07182v1 )

ライセンス: CC BY 4.0
Vojt\v{e}ch \v{C}erm\'ak, Luk\'a\v{s} Adam(参考訳) 敵対的例を作成するための新しい手法を提案する。 画素を摂動させる代わりに、入力画像のエンコーダ-デコーダ表現とデコーダ内の中間層を摂動させる。 これは生成モデルによって提供される高レベルな特徴を変える。 したがって、我々の摂動は長いくちばしや緑色の色合いのような意味的な意味を持っている。 我々は,この課題を,逆と初期画像の間のwasserstein距離を誤分類制約下で最小化することにより,最適化問題として定式化する。 投影勾配法を, 単純な不正確な投影法で採用する。 プロジェクションにより、全てのイテレーションが実現可能であり、我々の手法は常に逆画像を生成する。 我々は,MNISTデータセットとImageNetデータセットに対して,ターゲット設定と未ターゲット設定の両方で数値実験を行う。 敵画像は画素ベースの攻撃よりもステガノグラフィー防御技術に弱いことが実証された。 さらに,本手法はエッジなどの重要な特徴を修飾し,敵の訓練に基づく防御技術が攻撃に対して脆弱であることを示す。

We propose a novel method for creating adversarial examples. Instead of perturbing pixels, we use an encoder-decoder representation of the input image and perturb intermediate layers in the decoder. This changes the high-level features provided by the generative model. Therefore, our perturbation possesses semantic meaning, such as a longer beak or green tints. We formulate this task as an optimization problem by minimizing the Wasserstein distance between the adversarial and initial images under a misclassification constraint. We employ the projected gradient method with a simple inexact projection. Due to the projection, all iterations are feasible, and our method always generates adversarial images. We perform numerical experiments on the MNIST and ImageNet datasets in both targeted and untargeted settings. We demonstrate that our adversarial images are much less vulnerable to steganographic defence techniques than pixel-based attacks. Moreover, we show that our method modifies key features such as edges and that defence techniques based on adversarial training are vulnerable to our attacks.
翻訳日:2021-10-16 03:52:18 公開日:2021-10-14
# (参考訳) VLBInet:ニューラルネットワークを用いたEHTの電波干渉計測データ分類 [全文訳有]

VLBInet: Radio Interferometry Data Classification for EHT with Neural Networks ( http://arxiv.org/abs/2110.07185v1 )

ライセンス: CC BY 4.0
Joshua Yao-Yu Lin, Dominic W. Pesce, George N. Wong, Ajay Uppili Arasanipalai, Ben S. Prather, Charles F. Gammie(参考訳) イベント・ホライゾン望遠鏡(EHT)は先日、M87で最初の地平線規模のブラックホールの画像を公開した。 他の天文学データと組み合わせることで、これらの画像は穴に閉じ込められた降着速度と磁束と同様に、穴の質量とスピンを制限している。 EHTの重要な疑問は、現在のEHT VLBIデータ製品から、捕捉された磁束や関連するディスクモデルなどのキーパラメータを抽出できるかどうかである。 ビジビリティのモデル化と分析のプロセスは、データがフーリエ領域に疎結合にサンプリングされているのに対して、理論/シミュレーションのほとんどは画像領域に構築されているという事実によって複雑である。 本稿では,ニューラルネットワークを用いた電波干渉データに対する複雑なビジビティとクロージャ量を解析するためのデータ駆動手法を提案する。 モック・インターフェロメトリデータを用いて、我々のニューラルネットワークは、降着状態を高磁束(MAD)または低磁束(SANE)として推定できることを示す。 VLBInetを2017年4月5日、6、10、11)の4日間で収集した実際のM87 EHTデータに適用し、我々のニューラルネットワークは、平均スコア0.53で、平均スコア0.52、0.4、0.43、0.76を与え、MADまたはSANE状態に傾くデータの顕著な兆候は示さなかった。

The Event Horizon Telescope (EHT) recently released the first horizon-scale images of the black hole in M87. Combined with other astronomical data, these images constrain the mass and spin of the hole as well as the accretion rate and magnetic flux trapped on the hole. An important question for the EHT is how well key parameters, such as trapped magnetic flux and the associated disk models, can be extracted from present and future EHT VLBI data products. The process of modeling visibilities and analyzing them is complicated by the fact that the data are sparsely sampled in the Fourier domain while most of the theory/simulation is constructed in the image domain. Here we propose a data-driven approach to analyze complex visibilities and closure quantities for radio interferometric data with neural networks. Using mock interferometric data, we show that our neural networks are able to infer the accretion state as either high magnetic flux (MAD) or low magnetic flux (SANE), suggesting that it is possible to perform parameter extraction directly in the visibility domain without image reconstruction. We have applied VLBInet to real M87 EHT data taken on four different days in 2017 (April 5, 6, 10, 11), and our neural networks give a score prediction 0.52, 0.4, 0.43, 0.76 for each day, with an average score 0.53, which shows no significant indication for the data to lean toward either the MAD or SANE state.
翻訳日:2021-10-16 03:41:20 公開日:2021-10-14
# (参考訳) IPAに基づく言語間テキスト合成の再検討 [全文訳有]

Revisiting IPA-based Cross-lingual Text-to-speech ( http://arxiv.org/abs/2110.07187v1 )

ライセンス: CC BY 4.0
Haitong Zhang, Yue Lin(参考訳) International Phonetic Alphabet (IPA) は、言語間音声クローニング(CLVC)を実現するために、TTS (inter-lingual text-to-speech) で広く使われている。 しかし、IPA自体が言語間TTSで検討されている。 本稿では,IPAを入力として用いた言語間TSモデルの構築に関する実証的な知見を報告する。 実験により、IPAおよび上行シーケンスの処理方法がCLVCのパフォーマンスに無視できる影響があることが示されている。 さらに、言語単位の話者を含むデータセットを使用してIPAベースのTSシステムを構築すると、言語単位のIPAとトーン/ストレスシンボルが話者情報を漏洩する可能性があるため、CL VCが失敗する可能性がある。 さらに,学習データセットにおける話者の異なる組み合わせを実験し,cl vcのパフォーマンスに対する話者数の影響について検討した。

International Phonetic Alphabet (IPA) has been widely used in cross-lingual text-to-speech (TTS) to achieve cross-lingual voice cloning (CL VC). However, IPA itself has been understudied in cross-lingual TTS. In this paper, we report some empirical findings of building a cross-lingual TTS model using IPA as inputs. Experiments show that the way to process the IPA and suprasegmental sequence has a negligible impact on the CL VC performance. Furthermore, we find that using a dataset including one speaker per language to build an IPA-based TTS system would fail CL VC since the language-unique IPA and tone/stress symbols could leak the speaker information. In addition, we experiment with different combinations of speakers in the training dataset to further investigate the effect of the number of speakers on the CL VC performance.
翻訳日:2021-10-16 03:29:09 公開日:2021-10-14
# (参考訳) なぜ単独でプロパゲートするのか? グラフにおけるラベルと特徴の並列利用 [全文訳有]

Why Propagate Alone? Parallel Use of Labels and Features on Graphs ( http://arxiv.org/abs/2110.07190v1 )

ライセンス: CC BY-SA 4.0
Yangkun Wang, Jiarui Jin, Weinan Zhang, Yongyi Yang, Jiuhai Chen, Quan Gan, Yong Yu, Zheng Zhang, Zengfeng Huang and David Wipf(参考訳) グラフニューラルネットワーク(GNN)とラベル伝搬は、ノード特性予測などのタスクにおいてグラフ構造を利用するように設計された2つの相互関連モデリング戦略を表す。 前者は一般にスタック化されたメッセージパス層に基づいており、近所の情報を共有してノードの機能を予測埋め込みに変換する。 対照的に、後者はパラメータフリー拡散プロセスを通じてラベル情報をラベルのないノードに拡散するが、ノードの特徴とは独立して動作する。 したがって、材料の違いが単に特徴やラベルがグラフ全体に平滑化されているかどうかであることを考えると、パフォーマンスを改善するために2つの組み合わせを考えるのは自然である。 この点において、最近、トレーニングラベルのランダムに選択された部分をGNN入力として使用し、元のノードの特徴と結合して残りのラベルを予測する提案がなされている。 このいわゆるラベルトリックは、機能とラベルの並列使用を許容し、Open Graph Benchmark(OGB)のリーダーボード上の上位候補の多くに基礎を置いている。 しかし、広く普及しているにもかかわらず、これまでのところ、ラベルのトリックがトレーニングパイプラインにもたらす統計的特性を正確に解き放つ試みはほとんどなかった。 この結果から,確率ラベルのトリックを2つの因子からなる解釈可能な決定論的学習目標に還元できることを示す。 1つ目は、潜在的なラベルの漏洩を自然に解決するデータ適合項であり、もう1つはグラフのサイズと接続性に適応するグラフ構造に基づく正規化因子である。 その後、この視点を利用して幅広いラベルのトリック・ユースケースを動機付け、これらの拡張の有効性を検証する実験を行う。

Graph neural networks (GNNs) and label propagation represent two interrelated modeling strategies designed to exploit graph structure in tasks such as node property prediction. The former is typically based on stacked message-passing layers that share neighborhood information to transform node features into predictive embeddings. In contrast, the latter involves spreading label information to unlabeled nodes via a parameter-free diffusion process, but operates independently of the node features. Given then that the material difference is merely whether features or labels are smoothed across the graph, it is natural to consider combinations of the two for improving performance. In this regard, it has recently been proposed to use a randomly-selected portion of the training labels as GNN inputs, concatenated with the original node features for making predictions on the remaining labels. This so-called label trick accommodates the parallel use of features and labels, and is foundational to many of the top-ranking submissions on the Open Graph Benchmark (OGB) leaderboard. And yet despite its wide-spread adoption, thus far there has been little attempt to carefully unpack exactly what statistical properties the label trick introduces into the training pipeline, intended or otherwise. To this end, we prove that under certain simplifying assumptions, the stochastic label trick can be reduced to an interpretable, deterministic training objective composed of two factors. The first is a data-fitting term that naturally resolves potential label leakage issues, while the second serves as a regularization factor conditioned on graph structure that adapts to graph size and connectivity. Later, we leverage this perspective to motivate a broader range of label trick use cases, and provide experiments to verify the efficacy of these extensions.
翻訳日:2021-10-16 03:17:45 公開日:2021-10-14
# (参考訳) 画像ブラインドデコンボリューションのための変分ベイズアルゴリズム [全文訳有]

Unrolled Variational Bayesian Algorithm for Image Blind Deconvolution ( http://arxiv.org/abs/2110.07202v1 )

ライセンス: CC BY 4.0
Yunshi Huang and Emilie Chouzenoux and Jean-Christophe Pesquet(参考訳) 本稿では,画像ブラインドデコンボリューションのための変分ベイズアルゴリズム(VBA)を提案する。 我々のジェネリックフレームワークは、未知のぼかし/イメージと、ぼかしカーネル上のアフィン制約(例えば1つに合計する)に対する滑らかさ優先を組み込んでいる。 主なコントリビューションのひとつは、アンロールの方法論に従って、ニューラルネットワークパラダイム内でのVBAの統合です。 提案アーキテクチャは教師付き方式でトレーニングされており、VBAモデルの2つの重要なハイパーパラメータを最適に設定することができ、その結果の視覚的品質に関してさらなる改善をもたらすことができる。 グレースケール/カラー画像と多様なカーネル形状を含む様々な実験を行う。 数値例は、最適化、ベイズ推定、深層学習に基づく最先端技術と比較して、我々のアプローチの高パフォーマンスを示す。

In this paper, we introduce a variational Bayesian algorithm (VBA) for image blind deconvolution. Our generic framework incorporates smoothness priors on the unknown blur/image and possible affine constraints (e.g., sum to one) on the blur kernel. One of our main contributions is the integration of VBA within a neural network paradigm, following an unrolling methodology. The proposed architecture is trained in a supervised fashion, which allows us to optimally set two key hyperparameters of the VBA model and lead to further improvements in terms of resulting visual quality. Various experiments involving grayscale/color images and diverse kernel shapes, are performed. The numerical examples illustrate the high performance of our approach when compared to state-of-the-art techniques based on optimization, Bayesian estimation, or deep learning.
翻訳日:2021-10-16 02:55:51 公開日:2021-10-14
# (参考訳) パントロケーションのためのデュアルアテンションニューラルネットワークとパントグロスペアを用いた解釈 [全文訳有]

A Dual-Attention Neural Network for Pun Location and Using Pun-Gloss Pairs for Interpretation ( http://arxiv.org/abs/2110.07209v1 )

ライセンス: CC BY 4.0
Shen Liu, Meirong Ma, Hao Yuan, Jianchao Zhu, Yuanbin Wu, Man Lan(参考訳) 句の位置は、与えられた短いテキストで句語(通常、文章を曖昧にする単語またはフレーズ)を識別することであり、句解釈は句語の2つの異なる意味を見つけることである。 これまでの研究のほとんどは、wsd(word sense disambiguation)技術または発音情報によって得られた限定された単語感覚を用いて、パンの位置に対処する。 句解釈のタスクでは、関連する作業は様々なWSDアルゴリズムに注意を払う。 本稿では,単語認識と発音を文脈情報と効果的に統合し,2種類のパンに同時に対応させる,dun(dual-attentive neural network)と呼ばれるモデルを提案する。 さらに,句解釈を分類課題として扱い,この課題を解決するための処理データとしてpunglossペアを構築した。 2つのベンチマークデータセットにおける実験により,提案手法が新たな最先端結果を得ることが示された。 ソースコードはパブリックコードリポジトリで公開されています。

Pun location is to identify the punning word (usually a word or a phrase that makes the text ambiguous) in a given short text, and pun interpretation is to find out two different meanings of the punning word. Most previous studies adopt limited word senses obtained by WSD(Word Sense Disambiguation) technique or pronunciation information in isolation to address pun location. For the task of pun interpretation, related work pays attention to various WSD algorithms. In this paper, a model called DANN (Dual-Attentive Neural Network) is proposed for pun location, effectively integrates word senses and pronunciation with context information to address two kinds of pun at the same time. Furthermore, we treat pun interpretation as a classification task and construct pungloss pairs as processing data to solve this task. Experiments on the two benchmark datasets show that our proposed methods achieve new state-of-the-art results. Our source code is available in the public code repository.
翻訳日:2021-10-16 02:28:30 公開日:2021-10-14
# (参考訳) 最大平均偏差最適化による構造制約付き圧縮センシングマトリクスの学習 [全文訳有]

Learning a Compressive Sensing Matrix with Structural Constraints via Maximum Mean Discrepancy Optimization ( http://arxiv.org/abs/2110.07221v1 )

ライセンス: CC BY 4.0
Michael Koller and Wolfgang Utschick(参考訳) 本稿では,圧縮センシング関連リカバリ問題の計測行列を得るための学習に基づくアルゴリズムを提案する。 焦点は定数モジュラー制約を持つ行列であり、通常はハイブリッドプリコーディング/結合アーキテクチャにおけるアナログ位相シフト器のネットワークを表す。 制限された等長性を持つ行列を高次元から低次元超球面への点の写像として解釈する。 低次元超球面上の点、すなわち行列の範囲においては、測定ノイズに対するロバスト性を高めるために一様に分布すべきである。 この概念は、目的関数における最大平均不一致メトリックの1つを使用する最適化問題で定式化される。 ニューラルネットワーク関連のトピックにおけるこのメトリクスの最近の成功は、機械学習に基づく問題の解法を動機付けている。 数値実験では、圧縮センシングの文脈で一般的に用いられるランダムな測定行列よりも優れた性能を示す。 さらに,文献から定値率制約に適応する手法を提案する。 また,本手法はランダム行列と競合する可能性があり,初期化として使用する場合,提案手法と調和することが示されている。 最後に, toeplitz 制約など他の構造行列制約についても考察する。

We introduce a learning-based algorithm to obtain a measurement matrix for compressive sensing related recovery problems. The focus lies on matrices with a constant modulus constraint which typically represent a network of analog phase shifters in hybrid precoding/combining architectures. We interpret a matrix with restricted isometry property as a mapping of points from a high- to a low-dimensional hypersphere. We argue that points on the low-dimensional hypersphere, namely, in the range of the matrix, should be uniformly distributed to increase robustness against measurement noise. This notion is formalized in an optimization problem which uses one of the maximum mean discrepancy metrics in the objective function. Recent success of such metrics in neural network related topics motivate a solution of the problem based on machine learning. Numerical experiments show better performance than random measurement matrices that are generally employed in compressive sensing contexts. Further, we adapt a method from the literature to the constant modulus constraint. This method can also compete with random matrices and it is shown to harmonize well with the proposed learning-based approach if it is used as an initialization. Lastly, we describe how other structural matrix constraints, e.g., a Toeplitz constraint, can be taken into account, too.
翻訳日:2021-10-16 02:19:59 公開日:2021-10-14
# (参考訳) エッジリワイヤを多数有する低パスグラフフィルタの安定性について [全文訳有]

On the Stability of Low Pass Graph Filter With a Large Number of Edge Rewires ( http://arxiv.org/abs/2110.07234v1 )

ライセンス: CC BY 4.0
Hoang-Son Nguyen, Yiran He, Hoi-To Wai(参考訳) 近年、グラフフィルタの安定性は、非常に成功したグラフ畳み込みニューラルネットワーク(GCN)を駆動する重要な理論的特性の一つとして研究されている。 グラフフィルタの安定性は,GCNの基本構造であるグラフフィルタの出力に対する位相摂動の影響を特徴づける。 既存の成果の多くは、少数のエッジリワイヤによる小さな摂動の体制に焦点を当てている。 しかし、多くのアプリケーションでエッジリワイヤの数が大きくなる可能性がある。 後者のケースを研究するために、この研究は以前の分析から外れ、フィルタの周波数応答に依存するグラフフィルタの安定性に制約があることを証明する。 グラフフィルタが低通過であると仮定すると、フィルタの安定性はコミュニティ構造に対する摂動に依存する。 応用として,確率ブロックモデルグラフに対して,ノード数が無限に近づくと,グラフフィルタ距離が0に収束することを示す。 数値シミュレーションが我々の発見を裏付ける。

Recently, the stability of graph filters has been studied as one of the key theoretical properties driving the highly successful graph convolutional neural networks (GCNs). The stability of a graph filter characterizes the effect of topology perturbation on the output of a graph filter, a fundamental building block for GCNs. Many existing results have focused on the regime of small perturbation with a small number of edge rewires. However, the number of edge rewires can be large in many applications. To study the latter case, this work departs from the previous analysis and proves a bound on the stability of graph filter relying on the filter's frequency response. Assuming the graph filter is low pass, we show that the stability of the filter depends on perturbation to the community structure. As an application, we show that for stochastic block model graphs, the graph filter distance converges to zero when the number of nodes approaches infinity. Numerical simulations validate our findings.
翻訳日:2021-10-16 01:54:37 公開日:2021-10-14
# (参考訳) HUMAN4D:モーションと没入型メディアのための人間中心マルチモーダルデータセット [全文訳有]

HUMAN4D: A Human-Centric Multimodal Dataset for Motions and Immersive Media ( http://arxiv.org/abs/2110.07235v1 )

ライセンス: CC BY 4.0
nargyros Chatzitofis, Leonidas Saroglou, Prodromos Boutis, Petros Drakoulis, Nikolaos Zioulis, Shishir Subramanyam, Bart Kevelham, Caecilia Charbonnier, Pablo Cesar, Dimitrios Zarpalas, Stefanos Kollias, Petros Daras(参考訳) HUMAN4Dは大規模でマルチモーダルな4Dデータセットで、プロのマーカーベースのMoCap、ボリュームキャプチャ、オーディオ記録システムによって同時にキャプチャされるさまざまな人間の活動を含む。 HUMAN4Dは、2人の女性と2ドルの男性プロの俳優がさまざまなフルボディの動きや表情を演じ、多彩な動きとポーズを1対1、多対1の日常的、身体的、社会的活動(ジャンピング、ダンスなど)の一部として、マルチRGBD(mRGBD)、ボリューム、オーディオデータと共に提供する。 ハードウェア(HW)同期を用いた多視点カラーデータセットの存在にもかかわらず、私たちの知る限り、HUMAN4Dは、センサ内およびセンサ間HW-SYNCの使用により、高い同期精度でボリューム深度マップを提供する最初の、かつ唯一の公開リソースである。 さらに、時空間整列された3Dキャラクタは、HUMAN4Dを補完し、時間変化と高品質の動的メッシュに関する共同研究を可能にする。 本研究では,最先端のポーズ推定と3次元圧縮手法を用いたhuman4dベンチマークによる評価ベースラインを提供する。 前者の場合、2次元および3次元ポーズ推定アルゴリズムを単視点および多視点データキューに適用する。 後者については、オンラインボリュームビデオエンコーディングと定常ビットレートに関するボリュームデータに、オープンソースの3dコーデックをベンチマークします。 さらに、異なる品質で再構成されたメッシュベースのボリュームデータの質的かつ定量的な比較は、4次元表現に関して利用可能な選択肢を示している。 HUMAN4Dは、時空間的なポーズ、ボリューム、mRGBD、オーディオデータキューに関する共同研究を可能にするために、コンピュータビジョンとグラフィック研究コミュニティに導入された。 データセットとそのコードはhttps://tofis.github .io/myurls/human4dで入手できる。

We introduce HUMAN4D, a large and multimodal 4D dataset that contains a variety of human activities simultaneously captured by a professional marker-based MoCap, a volumetric capture and an audio recording system. By capturing 2 female and $2$ male professional actors performing various full-body movements and expressions, HUMAN4D provides a diverse set of motions and poses encountered as part of single- and multi-person daily, physical and social activities (jumping, dancing, etc.), along with multi-RGBD (mRGBD), volumetric and audio data. Despite the existence of multi-view color datasets captured with the use of hardware (HW) synchronization, to the best of our knowledge, HUMAN4D is the first and only public resource that provides volumetric depth maps with high synchronization precision due to the use of intra- and inter-sensor HW-SYNC. Moreover, a spatio-temporally aligned scanned and rigged 3D character complements HUMAN4D to enable joint research on time-varying and high-quality dynamic meshes. We provide evaluation baselines by benchmarking HUMAN4D with state-of-the-art human pose estimation and 3D compression methods. For the former, we apply 2D and 3D pose estimation algorithms both on single- and multi-view data cues. For the latter, we benchmark open-source 3D codecs on volumetric data respecting online volumetric video encoding and steady bit-rates. Furthermore, qualitative and quantitative visual comparison between mesh-based volumetric data reconstructed in different qualities showcases the available options with respect to 4D representations. HUMAN4D is introduced to the computer vision and graphics research communities to enable joint research on spatio-temporally aligned pose, volumetric, mRGBD and audio data cues. The dataset and its code are available https://tofis.github .io/myurls/human4d.
翻訳日:2021-10-16 01:40:53 公開日:2021-10-14
# (参考訳) カオスデータでrnnを訓練する方法? [全文訳有]

How to train RNNs on chaotic data? ( http://arxiv.org/abs/2110.07238v1 )

ライセンス: CC BY 4.0
Zahra Monfared, Jonas M. Mikhaeil and Daniel Durstewitz(参考訳) リカレントニューラルネットワーク(Recurrent Neural Network, RNN)は、シーケンシャルおよび時系列データをモデリングするための広帯域機械学習ツールである。 トレーニング中に減少傾向が後退する傾向にあるため、トレーニングが難しいことが知られている。 これは爆発と消滅の勾配問題として知られている。 この問題に対する以前のソリューションは、ゲートされたメモリバッファを備えた、かなり複雑で汎用的なアーキテクチャ上に構築されていたり、あるいは最近では、不動点への収束を保証するために制約を課したり、再帰行列を制限したりした。 しかし、そのような制約はRNNの表現性に厳しい制限を与える。 マルチスタビリティやカオスといった本質的なダイナミクスは無効である。 これは本質的に、自然と社会で遭遇する多くの時系列のカオス的な性質とは無関係である。 ここでは、RNN学習中の損失勾配をRNN生成軌道のリャプノフスペクトルに関連付けることで、この問題を包括的に理論的に扱う。 数学的には、安定平衡や循環的挙動を生み出すRNNが境界勾配を持つのに対して、カオス力学を持つRNNの勾配は常に分岐する。 これらの分析と洞察に基づき、カオスデータに対する効果的で単純なトレーニング手法と、リアプノフスペクトルに従って関連するハイパーパラメータを選択する方法のガイダンスを提供する。

Recurrent neural networks (RNNs) are wide-spread machine learning tools for modeling sequential and time series data. They are notoriously hard to train because their loss gradients backpropagated in time tend to saturate or diverge during training. This is known as the exploding and vanishing gradient problem. Previous solutions to this issue either built on rather complicated, purpose-engineered architectures with gated memory buffers, or - more recently - imposed constraints that ensure convergence to a fixed point or restrict (the eigenspectrum of) the recurrence matrix. Such constraints, however, convey severe limitations on the expressivity of the RNN. Essential intrinsic dynamics such as multistability or chaos are disabled. This is inherently at disaccord with the chaotic nature of many, if not most, time series encountered in nature and society. Here we offer a comprehensive theoretical treatment of this problem by relating the loss gradients during RNN training to the Lyapunov spectrum of RNN-generated orbits. We mathematically prove that RNNs producing stable equilibrium or cyclic behavior have bounded gradients, whereas the gradients of RNNs with chaotic dynamics always diverge. Based on these analyses and insights, we offer an effective yet simple training technique for chaotic data and guidance on how to choose relevant hyperparameters according to the Lyapunov spectrum.
翻訳日:2021-10-16 00:28:06 公開日:2021-10-14
# (参考訳) 因果トランスフォーマーは、人間と違って再帰的な入れ子構造で確率を下回る [全文訳有]

Causal Transformers Perform Below Chance on Recursive Nested Constructions, Unlike Humans ( http://arxiv.org/abs/2110.07240v1 )

ライセンス: CC BY 4.0
Yair Lakretz, Th\'eo Desbordes, Dieuwke Hupkes, Stanislas Dehaene(参考訳) 再帰処理は人間の言語能力の目印と考えられている。 最近の研究では、recurrent neural language model(rnn-lms)における再帰的処理を評価し、そのようなモデルが入れ子構造内の埋め込み依存性の確率レベル以下で実行されることを示した。 ここでは,最先端のトランスフォーマ lms について検討する。 組込み(インナー)依存性が短距離か長距離かで異なる2種類の入れ子構造で4種類のトランスフォーマー lms をテストした。 RNN-LM や人間に対して報告された結果に比べて,トランスフォーマーは短距離の組込み依存に対してほぼ完璧な性能が得られることが判明した。 しかし、長距離の組み込み依存関係では、Transformerのパフォーマンスは確率レベルを下回ります。 注目すべきは、組み込み依存性にたった3つの単語を追加することで、Transformerがほぼ完璧から低いパフォーマンスに落ちてしまうことだ。 その結果,再帰的な構造に基づく処理に関して,トランスフォーマーの欠点が明らかになった。

Recursive processing is considered a hallmark of human linguistic abilities. A recent study evaluated recursive processing in recurrent neural language models (RNN-LMs) and showed that such models perform below chance level on embedded dependencies within nested constructions -- a prototypical example of recursion in natural language. Here, we study if state-of-the-art Transformer LMs do any better. We test four different Transformer LMs on two different types of nested constructions, which differ in whether the embedded (inner) dependency is short or long range. We find that Transformers achieve near-perfect performance on short-range embedded dependencies, significantly better than previous results reported for RNN-LMs and humans. However, on long-range embedded dependencies, Transformers' performance sharply drops below chance level. Remarkably, the addition of only three words to the embedded dependency caused Transformers to fall from near-perfect to below-chance performance. Taken together, our results reveal Transformers' shortcoming when it comes to recursive, structure-based, processing.
翻訳日:2021-10-15 23:21:35 公開日:2021-10-14
# (参考訳) マルチレベルテキスト識別による中国語生体言語モデルの構築 [全文訳有]

Building Chinese Biomedical Language Models via Multi-Level Text Discrimination ( http://arxiv.org/abs/2110.07244v1 )

ライセンス: CC BY-SA 4.0
Quan Wang and Songtai Dai and Benfeng Xu and Yajuan Lyu and Yong Zhu and Hua Wu and Haifeng Wang(参考訳) BERTやGPTのような事前訓練言語モデル(PLM)は、一般ドメインだけでなく、生物医学領域においても、NLPの分野に革命をもたらした。 バイオメディカルplmを構築する以前の取り組みのほとんどは、単にドメイン適応に頼り、主に英語に重点を置いてきた。 本稿では,中国における生物医学的PLMであるeHealthについて紹介する。 この新たなフレームワークは、トークンレベルとシーケンスレベルの両方の識別を通じて、eHealthを差別者として訓練する。 前者は、ジェネレータによって破損した入力トークンを検出し、可算候補から元の信号を選択し、後者は、同じ元のシーケンスの破損を他のものとさらに区別することである。 したがって、ehealthはトークンとシーケンスレベルで言語のセマンティクスを学ぶことができる。 様々な形態の11の中国語生物医学的言語理解タスクに関する大規模な実験により、我々のアプローチの有効性と優位性が確認された。 事前トレーニングされたモデルは \url{https://github.com/p addlepaddle/research /tree/master/kg/ehea lth} で公開されている。

Pre-trained language models (PLMs), such as BERT and GPT, have revolutionized the field of NLP, not only in the general domain but also in the biomedical domain. Most prior efforts in building biomedical PLMs have resorted simply to domain adaptation and focused mainly on English. In this work we introduce eHealth, a biomedical PLM in Chinese built with a new pre-training framework. This new framework trains eHealth as a discriminator through both token-level and sequence-level discrimination. The former is to detect input tokens corrupted by a generator and select their original signals from plausible candidates, while the latter is to further distinguish corruptions of a same original sequence from those of the others. As such, eHealth can learn language semantics at both the token and sequence levels. Extensive experiments on 11 Chinese biomedical language understanding tasks of various forms verify the effectiveness and superiority of our approach. The pre-trained model is available to the public at \url{https://github.com/P addlePaddle/Research /tree/master/KG/eHea lth} and the code will also be released later.
翻訳日:2021-10-15 23:13:25 公開日:2021-10-14
# (参考訳) DeepMoCap:複数深度センサとRetro-Reflectorを用いた深部光学モーションキャプチャ [全文訳有]

DeepMoCap: Deep Optical Motion Capture Using Multiple Depth Sensors and Retro-Reflectors ( http://arxiv.org/abs/2110.07283v1 )

ライセンス: CC BY 4.0
Anargyros Chatzitofis, Dimitrios Zarpalas, Stefanos Kollias, Petros Daras(参考訳) 本稿では,複数の時空間的赤外深度センサとレトロ反射ストラップとパッチ(反射器)を用いて,マーカーを用いた1対1光モーションキャプチャ法(DeepMoCap)を提案する。 DeepMoCapは、深度画像にリフレクターを自動でローカライズし、3D空間にラベリングすることで、モーションキャプチャーを探索する。 色付き深度マップと3次元光フローフレーム間の時間的相関を符号化する非パラメトリック表現を導入し,多段フルリ畳み込みネットワーク(FCN)アーキテクチャを提案する。 抽出された反射板2d位置は3d空間に空間的にマッピングされ、ロバストな3d光学データ抽出となる。 抽出した光学データにテンプレートベースフィッティング技術を適用して、被写体の動きを効率よくキャプチャする。 2つのデータセットが作成され、評価目的で公開されている。1つは、マルチビュー深度と3d光フローアノテート画像(dmc2.5d)、もう1つは、スケルトン、慣性、地上真理のmocapデータ(dmc3d)と共に、時空間的にアライメントされたマルチビュー深度画像からなる。 FCNモデルは2D Percentage of Correct Keypoints (PCK) 測定値を用いてDMC2.5Dデータセット上での競合よりも優れており、モーションキャプチャの結果はDMC3D上のRGB-Dおよび慣性データ融合アプローチに対して評価され、合計3D PCK精度において次のベストメソッドよりも4.5%向上している。

In this paper, a marker-based, single-person optical motion capture method (DeepMoCap) is proposed using multiple spatio-temporally aligned infrared-depth sensors and retro-reflective straps and patches (reflectors). DeepMoCap explores motion capture by automatically localizing and labeling reflectors on depth images and, subsequently, on 3D space. Introducing a non-parametric representation to encode the temporal correlation among pairs of colorized depthmaps and 3D optical flow frames, a multi-stage Fully Convolutional Network (FCN) architecture is proposed to jointly learn reflector locations and their temporal dependency among sequential frames. The extracted reflector 2D locations are spatially mapped in 3D space, resulting in robust 3D optical data extraction. The subject's motion is efficiently captured by applying a template-based fitting technique on the extracted optical data. Two datasets have been created and made publicly available for evaluation purposes; one comprising multi-view depth and 3D optical flow annotated images (DMC2.5D), and a second, consisting of spatio-temporally aligned multi-view depth images along with skeleton, inertial and ground truth MoCap data (DMC3D). The FCN model outperforms its competitors on the DMC2.5D dataset using 2D Percentage of Correct Keypoints (PCK) metric, while the motion capture outcome is evaluated against RGB-D and inertial data fusion approaches on DMC3D, outperforming the next best method by 4.5% in total 3D PCK accuracy.
翻訳日:2021-10-15 22:52:53 公開日:2021-10-14
# (参考訳) サインと関連性学習 [全文訳有]

Sign and Relevance learning ( http://arxiv.org/abs/2110.07292v1 )

ライセンス: CC BY 4.0
Sama Daryanavard and Bernd Porr(参考訳) 生物学的に現実的な、あるいはインスパイアされた強化学習の標準モデルは、浅いネットワークを暗示するグローバルエラー信号を用いる。 しかし、ディープネットワークは、トップダウン経路とボトムアップ経路の間の対称重みを必要とするため、生物学的に現実的ではないそのようなネットワークを通してエラー信号を後方に送ることで、著しく優れた性能を提供することができる。 代わりに、局所学習とグローバル変調を組み合わせたネットワークを提案し、ネットワーク全体の可塑性変化量をニューロ変調が制御し、エラーの兆候だけがネットワークを通して逆伝播される。 神経変調は、エラー信号のボトムアップサインが長期増強と長期抑うつを決定している間に、修正エラーまたは関連信号として理解することができる。 我々は、このパラダイムのパフォーマンスを実際のロボットタスクで実証する。

Standard models of biologically realistic, or inspired, reinforcement learning employ a global error signal which implies shallow networks. However, deep networks could offer a drastically superior performance by feeding the error signal backwards through such a network which in turn is not biologically realistic as it requires symmetric weights between top-down and bottom-up pathways. Instead, we present a network combining local learning with global modulation where neuromodulation controls the amount of plasticity change in the whole network, while only the sign of the error is backpropagated through the network. The neuromodulation can be understood as a rectified error, or relevance, signal while the bottom-up sign of the error signal decides between long-term potentiation and long-term depression. We demonstrate the performance of this paradigm with a real robotic task.
翻訳日:2021-10-15 22:22:39 公開日:2021-10-14
# (参考訳) マルチタスク問題はマルチ目的ではない [全文訳有]

Multi-task problems are not multi-objective ( http://arxiv.org/abs/2110.07301v1 )

ライセンス: CC BY 4.0
Michael Ruchte and Josif Grabocka(参考訳) 多目的最適化(MOO)は、与えられた目的セットに対して最適な設定セットを見つけることを目的としている。 最近の一連の研究は、典型的な機械学習(ML)設定にMOOメソッドを適用している。 これらの研究は、MOOアルゴリズムのベンチマークにMulti-Task Learning (MTL) 問題も用いている。 本研究では, MTL問題とMOO問題の特徴が似ていないことを示す。 特に、十分表現力のある単一モデルの場合、MTL損失は競合しない。 その結果、単一のモデルがすべての目的を独立モデルで最適化するだけでなく、MOOを適用不可能にすることができる。 広範に使われているMNISTデータセットについて広範な実験を行った。 その結果,MLのためのMOOアルゴリズムを評価するための新しいベンチマークが求められた。 私たちのコードは、https://github.com/r uchtem/moo-mtl.comで利用可能です。

Multi-objective optimization (MOO) aims at finding a set of optimal configurations for a given set of objectives. A recent line of work applies MOO methods to the typical Machine Learning (ML) setting, which becomes multi-objective if a model should optimize more than one objective, for instance in fair machine learning. These works also use Multi-Task Learning (MTL) problems to benchmark MOO algorithms treating each task as independent objective. In this work we show that MTL problems do not resemble the characteristics of MOO problems. In particular, MTL losses are not competing in case of a sufficiently expressive single model. As a consequence, a single model can perform just as well as optimizing all objectives with independent models, rendering MOO inapplicable. We provide evidence with extensive experiments on the widely used Multi-Fashion-MNIST datasets. Our results call for new benchmarks to evaluate MOO algorithms for ML. Our code is available at: https://github.com/r uchtem/moo-mtl.
翻訳日:2021-10-15 22:05:50 公開日:2021-10-14
# (参考訳) マルチブリッジ多言語NMTモデルの実証的研究 [全文訳有]

An Empirical Investigation of Multi-bridge Multilingual NMT models ( http://arxiv.org/abs/2110.07304v1 )

ライセンス: CC BY 4.0
Anoop Kunchukuttan(参考訳) 本稿では,マルチブリッジ多言語NMTモデル (MB-M2M) について検討する。 英語中心の言語ペアに加えて、非英語ペアでトレーニングされたモデル。 In addition to validating previous work which shows that MB-M2M models can overcome zeroshot translation problems, our analysis reveals the following results about multibridge models: (1) it is possible to extract a reasonable amount of parallel corpora between non-English languages for low-resource languages (2) with limited non-English centric data, MB-M2M models are competitive with or outperform pivot models, (3) MB-M2M models can outperform English-Any models and perform at par with Any-English models, so a single multilingual NMT system can serve all translation directions.

In this paper, we present an extensive investigation of multi-bridge, many-to-many multilingual NMT models (MB-M2M) ie., models trained on non-English language pairs in addition to English-centric language pairs. In addition to validating previous work which shows that MB-M2M models can overcome zeroshot translation problems, our analysis reveals the following results about multibridge models: (1) it is possible to extract a reasonable amount of parallel corpora between non-English languages for low-resource languages (2) with limited non-English centric data, MB-M2M models are competitive with or outperform pivot models, (3) MB-M2M models can outperform English-Any models and perform at par with Any-English models, so a single multilingual NMT system can serve all translation directions.
翻訳日:2021-10-15 21:56:35 公開日:2021-10-14
# (参考訳) 造影mriにおける左室解剖のマルチセンター・マルチベンダ自動分節化 [全文訳有]

Multi-center, multi-vendor automated segmentation of left ventricular anatomy in contrast-enhanced MRI ( http://arxiv.org/abs/2110.07360v1 )

ライセンス: CC BY 4.0
Carla Sendra-Balcells, V\'ictor M. Campello, Carlos Mart\'in-Isla, David Vilades Medel, Mart\'in Lu\'is Descalzo, Andrea Guala, Jos\'e F. Rodr\'iguez Palomares, Karim Lekadir(参考訳) 晩期gadolinium-enhanced magnetic resonance imaging (lge-mri) における左室壁の正確なデライン化は,スカー組織定量化および心筋梗塞の患者特異的評価に必須のステップである。 LGE-MRIで左室の自動分画を行うための多くの深層学習技術が提案されている。 これまでのところ、既存のモデルは単一の臨床センターのLGE-MRIデータセットで圧倒的に開発され、評価されている。 しかし、実際には、LGE-MRI画像は、MRIスキャナー、撮像条件、コントラスト注入プロトコル、局所的な臨床実践の違いにより、各国の臨床センターで大きく異なる。 本研究は, LGE-MRIにおけるマルチセンターとマルチベンダのLVセグメンテーションを, 臨床指標間のモデル一般化性を高めるためのいくつかの戦略を提案し, 実装し, 詳細に評価することによって, 初めて検討した。 これには、トレーニングサンプルのイメージ変動を人工的に増強するデータ強化、センター間でのLGE-MRI画像の分布を整列するイメージ調和、既存の単一中心モデルを調整するための移行学習、新しい臨床現場からの未確認イメージなどが含まれる。 その結果、スペイン、フランス、中国の4つの臨床センターで取得された新しいマルチセンターLGE-MRIデータセットに基づいて、データ拡張と転写学習の組み合わせは、元のトレーニングに含まれない新しい臨床センターにうまく一般化するシングルセンターモデルにつながることが示された。 提案フレームワークは, 異なる地理的位置の複数の臨床センターに展開可能な, LGE-MRIにおける自動LVセグメンテーションのための臨床ツールの開発の可能性を示す。

Accurate delineation of the left ventricular boundaries in late gadolinium-enhanced magnetic resonance imaging (LGE-MRI) is an essential step for scar tissue quantification and patient-specific assessment of myocardial infarction. Many deep-learning techniques have been proposed to perform automatic segmentations of the left ventricle (LV) in LGE-MRI showing segmentations as accurate as those obtained by expert cardiologists. Thus far, the existing models have been overwhelmingly developed and evaluated with LGE-MRI datasets from single clinical centers. However, in practice, LGE-MRI images vary significantly between clinical centers within and across countries, in particular due to differences in the MRI scanners, imaging conditions, contrast injection protocols and local clinical practise. This work investigates for the first time multi-center and multi-vendor LV segmentation in LGE-MRI, by proposing, implementing and evaluating in detail several strategies to enhance model generalizability across clinical cites. These include data augmentation to artificially augment the image variability in the training sample, image harmonization to align the distributions of LGE-MRI images across centers, and transfer learning to adjust existing single-center models to unseen images from new clinical sites. The results obtained based on a new multi-center LGE-MRI dataset acquired in four clinical centers in Spain, France and China, show that the combination of data augmentation and transfer learning can lead to single-center models that generalize well to new clinical centers not included in the original training. The proposed framework shows the potential for developing clinical tools for automated LV segmentation in LGE-MRI that can be deployed in multiple clinical centers across distinct geographical locations.
翻訳日:2021-10-15 21:48:57 公開日:2021-10-14
# (参考訳) RocketQAv2:Dense Passage RetrievalとPassage Re- rankの共同トレーニング方法 [全文訳有]

RocketQAv2: A Joint Training Method for Dense Passage Retrieval and Passage Re-ranking ( http://arxiv.org/abs/2110.07367v1 )

ライセンス: CC BY 4.0
Ruiyang Ren, Yingqi Qu, Jing Liu, Wayne Xin Zhao, Qiaoqiao She, Hua Wu, Haifeng Wang and Ji-Rong Wen(参考訳) 様々な自然言語処理タスクにおいて,経路検索と経路再ランク付けは関連情報の検索とランキングの2つの重要な手順である。 2つの手順が最終性能に寄与するため、相互改善を達成するために共同で最適化することが重要である。 本稿では,高密度経路検索と再ランク付けのための新しい共同学習手法を提案する。 大きな貢献は、動的リストワイズ蒸留法を導入し、レトリバーとリランクラーの両方に対して統一的なリストワイズ訓練手法を設計することである。 ダイナミック蒸留中に、相互の関連情報に応じてレトリバーと再ランク付け器を適応的に改善することができる。 また、リストワイズトレーニングアプローチのための多様なトレーニングインスタンスを構築するためのハイブリッドデータ拡張戦略を提案する。 MSMARCOとNatural Questionsの両方のデータセットに対するアプローチの有効性を示す。 私たちのコードはhttps://github.com/p addlepaddle/rocketqa で利用可能です。

In various natural language processing tasks, passage retrieval and passage re-ranking are two key procedures in finding and ranking relevant information. Since both the two procedures contribute to the final performance, it is important to jointly optimize them in order to achieve mutual improvement. In this paper, we propose a novel joint training approach for dense passage retrieval and passage re-ranking. A major contribution is that we introduce the dynamic listwise distillation, where we design a unified listwise training approach for both the retriever and the re-ranker. During the dynamic distillation, the retriever and the re-ranker can be adaptively improved according to each other's relevance information. We also propose a hybrid data augmentation strategy to construct diverse training instances for listwise training approach. Extensive experiments show the effectiveness of our approach on both MSMARCO and Natural Questions datasets. Our code is available at https://github.com/P addlePaddle/RocketQA .
翻訳日:2021-10-15 21:31:22 公開日:2021-10-14
# (参考訳) 連続体マイクロメカニクスのための物理情報ニューラルネットワーク [全文訳有]

Physics informed neural networks for continuum micromechanics ( http://arxiv.org/abs/2110.07374v1 )

ライセンス: CC BY 4.0
Alexander Henkes, Henning Wessels, Rolf Mahnken(参考訳) 近年,応用数学や工学における多種多様な問題に対して,物理情報ニューラルネットワークの適用が成功している。 原理的アイデアは、ニューラルネットワークを大域的アンザッツ関数として偏微分方程式に使用することである。 世界的近似のため、物理情報ニューラルネットワークは、最適化によって局所効果と強い非線形解を表示するのに困難である。 本研究では,鋭い相界面を持つ材料不均質性によって引き起こされる物質非線型性について考察する。 これは、グローバルなアンサッツに依存するメソッドにとって難しい問題である。 収束問題を解決するため、適応的なトレーニング戦略とドメイン分解を研究した。 実世界の$\mu$CT-Scansから得られた不均一構造における非線形応力, 変位, エネルギー場を正確に解くことができる。

Recently, physics informed neural networks have successfully been applied to a broad variety of problems in applied mathematics and engineering. The principle idea is to use a neural network as a global ansatz function to partial differential equations. Due to the global approximation, physics informed neural networks have difficulties in displaying localized effects and strong non-linear solutions by optimization. In this work we consider material non-linearities invoked by material inhomogeneities with sharp phase interfaces. This constitutes a challenging problem for a method relying on a global ansatz. To overcome convergence issues, adaptive training strategies and domain decomposition are studied. It is shown, that the domain decomposition approach is able to accurately resolve nonlinear stress, displacement and energy fields in heterogeneous microstructures obtained from real-world $\mu$CT-scans.
翻訳日:2021-10-15 21:11:21 公開日:2021-10-14
# (参考訳) 言語エンコーダへの意味知識の伝達 [全文訳有]

Transferring Semantic Knowledge Into Language Encoders ( http://arxiv.org/abs/2110.07382v1 )

ライセンス: CC BY 4.0
Mohammad Umair, Francis Ferraro(参考訳) 意味的意味表現から意味的知識をトランスフォーマーベースの言語エンコーダに変換する手法である意味型ミッドチューニングを導入する。 中間調律では、特定の推論タスクに縛られることなく、一般的な文のテキストとそれらの文の構造的な意味表現を一致させることを学ぶ。 われわれのアプローチは金の注釈付き意味表現を必要としない。 代わりに、既製のPropBankやFrameNetセマンティックパーサなど、自動的に生成されたセマンティック表現を利用する。 このアライメントは分類や三重項損失によって暗黙的に学習できることを示す。 提案手法は,推論,読解,テキストの類似性,およびglue,superglue,steva lベンチマークから引き出された意味的タスク間での予測性能の向上を示す言語エンコーダを生成する。 We evaluate our approach on three popular baseline models, where our experimental results and analysis concludes that current pre-trained language models can further benefit from structured semantic frames with the proposed mid-tuning method, as they inject additional task-agnostic knowledge to the encoder, improving the generated embeddings as well as the linguistic properties of the given model, as evident from improvements on a popular sentence embedding toolkit and a variety of probing tasks.

We introduce semantic form mid-tuning, an approach for transferring semantic knowledge from semantic meaning representations into transformer-based language encoders. In mid-tuning, we learn to align the text of general sentences -- not tied to any particular inference task -- and structured semantic representations of those sentences. Our approach does not require gold annotated semantic representations. Instead, it makes use of automatically generated semantic representations, such as from off-the-shelf PropBank and FrameNet semantic parsers. We show that this alignment can be learned implicitly via classification or directly via triplet loss. Our method yields language encoders that demonstrate improved predictive performance across inference, reading comprehension, textual similarity, and other semantic tasks drawn from the GLUE, SuperGLUE, and SentEval benchmarks. We evaluate our approach on three popular baseline models, where our experimental results and analysis concludes that current pre-trained language models can further benefit from structured semantic frames with the proposed mid-tuning method, as they inject additional task-agnostic knowledge to the encoder, improving the generated embeddings as well as the linguistic properties of the given model, as evident from improvements on a popular sentence embedding toolkit and a variety of probing tasks.
翻訳日:2021-10-15 20:46:15 公開日:2021-10-14
# (参考訳) ネグレクト兄弟 : VAE用異方性ガウス後部 [全文訳有]

The Neglected Sibling: Isotropic Gaussian Posterior for VAE ( http://arxiv.org/abs/2110.07383v1 )

ライセンス: CC BY-SA 4.0
Lan Zhang, Wray Buntine, Ehsan Shareghi(参考訳) 深層生成モデルはNLPのいくつかの領域で広く使われており、それらを増強したり、トレーニング課題に対処するために様々な技術が提案されている。 本稿では,その潜在表現空間をより有効活用できる等方性ガウス後部(igp)を用いて,変分オートエンコーダ(vaes)の簡易な修正を提案する。 このモデルは、表現空間における不活性次元に関連するVAEの準最適挙動を避ける。 我々は,様々なデータセットおよびタスクに関する理論的解析および実証的証拠を共に提供し,IGPが下流タスク性能やサンプル効率からロバストネスに至るまで,いくつかの量的および質的根拠において一貫した改善をもたらすことを示す。 さらに、GPにより奨励される表現特性に関する洞察を与え、その利得が画像領域にも一般化されることを示す。

Deep generative models have been widely used in several areas of NLP, and various techniques have been proposed to augment them or address their training challenges. In this paper, we propose a simple modification to Variational Autoencoders (VAEs) by using an Isotropic Gaussian Posterior (IGP) that allows for better utilisation of their latent representation space. This model avoids the sub-optimal behavior of VAEs related to inactive dimensions in the representation space. We provide both theoretical analysis, and empirical evidence on various datasets and tasks that show IGP leads to consistent improvement on several quantitative and qualitative grounds, from downstream task performance and sample efficiency to robustness. Additionally, we give insights about the representational properties encouraged by IGP and also show that its gain generalises to image domain as well.
翻訳日:2021-10-15 20:32:21 公開日:2021-10-14
# (参考訳) 音声自動キャプションのための市販機械リスニングと自然言語モデルの評価 [全文訳有]

Evaluating Off-the-Shelf Machine Listening and Natural Language Models for Automated Audio Captioning ( http://arxiv.org/abs/2110.07410v1 )

ライセンス: CC BY 4.0
Benno Weck, Xavier Favory, Konstantinos Drossos, Xavier Serra(参考訳) 自動音声キャプション(AAC)は、一般的な音声信号のテキスト記述を自動的に生成するタスクである。 キャプションシステムは入力信号から様々な情報を識別し、自然言語で表現する必要がある。 既存の作業は主に、新しいメソッドの調査と、既存のデータセットで測定されたパフォーマンスの改善に重点を置いている。 最近になって注目を集めたAACの研究はほとんどなく、既存の学習済みオーディオおよび自然言語処理リソースの性能について研究している。 本稿ではトランスフォーマーを用いたキャプション手法を用いて,市販モデルの性能評価を行う。 自由利用可能な布地データセットを用いて,4つの学習済みマシンリスニングモデル,4つの単語埋め込みモデル,それらの組み合わせを多種多様な設定で比較する。 評価の結果,YAMNetとBERTの埋め込みを組み合わせることで,最高のキャプションが生成されることが示唆された。 さらに、訓練済みの単語埋め込みを微調整することで、パフォーマンスが向上する。 最後に、トランスフォーマーエンコーダを用いてオーディオ埋め込みのシーケンスを処理し、高品質なキャプションを生成することを示す。

Automated audio captioning (AAC) is the task of automatically generating textual descriptions for general audio signals. A captioning system has to identify various information from the input signal and express it with natural language. Existing works mainly focus on investigating new methods and try to improve their performance measured on existing datasets. Having attracted attention only recently, very few works on AAC study the performance of existing pre-trained audio and natural language processing resources. In this paper, we evaluate the performance of off-the-shelf models with a Transformer-based captioning approach. We utilize the freely available Clotho dataset to compare four different pre-trained machine listening models, four word embedding models, and their combinations in many different settings. Our evaluation suggests that YAMNet combined with BERT embeddings produces the best captions. Moreover, in general, fine-tuning pre-trained word embeddings can lead to better performance. Finally, we show that sequences of audio embeddings can be processed using a Transformer encoder to produce higher-quality captions.
翻訳日:2021-10-15 20:16:19 公開日:2021-10-14
# (参考訳) レイトフュージョンアプローチによる生成逆数ネットワークを用いたRGB-D画像の描画 [全文訳有]

RGB-D Image Inpainting Using Generative Adversarial Network with a Late Fusion Approach ( http://arxiv.org/abs/2110.07413v1 )

ライセンス: CC BY 4.0
Ryo Fujii, Ryo Hachiuma, Hideo Saito(参考訳) Diminished Realityは、ビデオ画像からオブジェクトを取り除き、行方不明の領域を可視画素で埋めることを目的とした技術だ。 従来の手法では、異なる視点から同じシーンを撮影する異なるカメラを使用して、領域を取り除いて復元する。 本稿では,複数のカメラを必要としない生成対向ネットワークを用いたRGB-D画像の描画手法を提案する。 近年,RGB画像の塗装法は,生成的対向ネットワークを用いることで,優れた成果を上げている。 しかし、RGB塗装法は、欠落した領域のテクスチャのみを復元することを目的としており、幾何学的情報(シーンの3次元構造)を復元しない。 従来の画像インペイント手法をRGB-D画像インペイントに拡張し,一対のRGB画像と深度画像から行方不明領域のテクスチャと幾何学を共同で復元する。 RGBと深度画像(セマンティックセグメンテーションやオブジェクト検出など)を使用する他のタスクにインスパイアされた我々は、RGBと深度情報の利点を生かしたレイトフュージョンアプローチを提案する。 提案手法の有効性を実験的に検証した。

Diminished reality is a technology that aims to remove objects from video images and fills in the missing region with plausible pixels. Most conventional methods utilize the different cameras that capture the same scene from different viewpoints to allow regions to be removed and restored. In this paper, we propose an RGB-D image inpainting method using generative adversarial network, which does not require multiple cameras. Recently, an RGB image inpainting method has achieved outstanding results by employing a generative adversarial network. However, RGB inpainting methods aim to restore only the texture of the missing region and, therefore, does not recover geometric information (i.e, 3D structure of the scene). We expand conventional image inpainting method to RGB-D image inpainting to jointly restore the texture and geometry of missing regions from a pair of RGB and depth images. Inspired by other tasks that use RGB and depth images (e.g., semantic segmentation and object detection), we propose late fusion approach that exploits the advantage of RGB and depth information each other. The experimental results verify the effectiveness of our proposed method.
翻訳日:2021-10-15 20:03:51 公開日:2021-10-14
# (参考訳) アートイメージから誘発される社会的概念のマルチモーダルフレームによる自動モデリング [全文訳有]

Automatic Modeling of Social Concepts Evoked by Art Images as Multimodal Frames ( http://arxiv.org/abs/2110.07420v1 )

ライセンス: CC BY 4.0
Delfina Sol Martinez Pandiani and Valentina Presutti(参考訳) 非物理的対象(革命、暴力、友情など)を参照する社会的概念は、文化遺産(ch)分野の芸術画像のコレクションを含む視覚データのコンテンツを記述、インデックス化し、照会するための強力なツールである。 コンピュータビジョンの完全な画像理解に向けて多くの進歩がなされているが、画像によって誘発される社会的概念の自動検出は依然として課題である。 これは、よく知られたセマンティックギャップの問題、独特の物理的特徴の欠如、具体的な概念よりも非特異的な特徴への依存など、社会的概念の悪化による部分がある。 本稿では,社会的概念表現に関する近年の認知理論を,マルチモーダル・フレームとして表現するためのソフトウェア・アプローチに変換し,多感覚データを統合することを提案する。 提案手法は,関心概念にタグづけされたビジュアルアート素材からマルチモーダルな特徴の抽出,解析,統合に焦点を当てている。 概念モデルを定義し,社会概念をマルチモーダルフレームとして形式的に表現するための新しいオントロジーを提案する。 テイト・ギャラリーのコレクションを実証的基盤として,我々はその可能性を実証するために,アートイメージのコーパスを用いて手法を実験した。 我々は研究のさらなる方向性を議論し、すべてのソフトウェア、データソース、結果を提供する。

Social concepts referring to non-physical objects--such as revolution, violence, or friendship--are powerful tools to describe, index, and query the content of visual data, including ever-growing collections of art images from the Cultural Heritage (CH) field. While much progress has been made towards complete image understanding in computer vision, automatic detection of social concepts evoked by images is still a challenge. This is partly due to the well-known semantic gap problem, worsened for social concepts given their lack of unique physical features, and reliance on more unspecific features than concrete concepts. In this paper, we propose the translation of recent cognitive theories about social concept representation into a software approach to represent them as multimodal frames, by integrating multisensory data. Our method focuses on the extraction, analysis, and integration of multimodal features from visual art material tagged with the concepts of interest. We define a conceptual model and present a novel ontology for formally representing social concepts as multimodal frames. Taking the Tate Gallery's collection as an empirical basis, we experiment our method on a corpus of art images to provide a proof of concept of its potential. We discuss further directions of research, and provide all software, data sources, and results.
翻訳日:2021-10-15 19:55:09 公開日:2021-10-14
# (参考訳) 事前学習されたコントラスト表現を用いた逆問題 [全文訳有]

Inverse Problems Leveraging Pre-trained Contrastive Representations ( http://arxiv.org/abs/2110.07439v1 )

ライセンス: CC BY 4.0
Sriram Ravula, Georgios Smyrnis, Matt Jordan, Alexandros G. Dimakis(参考訳) 破損したデータの表現を復元するための新しい逆問題群について検討する。 我々は、CLIPのようなクリーンな画像で動作する事前訓練された表現学習ネットワークR(x)へのアクセスを想定している。 問題は、画像r(x) の表現を復元することであり、ある既知の前方演算子 a に対して破損したバージョン a(x) しか与えられていない場合である。 頑健な表現に対する線形プローブを用いて,画像のぼやけ,付加雑音,ランダムな画素マスキングなど,様々な歪みを伴う画像の分類において,エンドツーエンドの教師付きベースラインよりも高い精度を実現する。 我々はImageNetのサブセットについて評価し、この手法が様々な歪みに対して堅牢であることを確認する。 提案手法は,幅広いフォワード演算子においてラベル付きデータのごく一部であっても,エンド・ツー・エンドのベースラインよりも優れる。

We study a new family of inverse problems for recovering representations of corrupted data. We assume access to a pre-trained representation learning network R(x) that operates on clean images, like CLIP. The problem is to recover the representation of an image R(x), if we are only given a corrupted version A(x), for some known forward operator A. We propose a supervised inversion method that uses a contrastive objective to obtain excellent representations for highly corrupted images. Using a linear probe on our robust representations, we achieve a higher accuracy than end-to-end supervised baselines when classifying images with various types of distortions, including blurring, additive noise, and random pixel masking. We evaluate on a subset of ImageNet and observe that our method is robust to varying levels of distortion. Our method outperforms end-to-end baselines even with a fraction of the labeled data in a wide range of forward operators.
翻訳日:2021-10-15 19:38:03 公開日:2021-10-14
# (参考訳) ソーシャル・グッドのための言語技術設計 - 取られない道 [全文訳有]

Designing Language Technologies for Social Good: The Road not Taken ( http://arxiv.org/abs/2110.07444v1 )

ライセンス: CC BY 4.0
Namrata Mukhija, Monojit Choudhury, Kalika Bali(参考訳) 社会的善のための音声・言語技術(LT4SG)の開発、特に疎外化コミュニティの福祉と低リソース・低サービス言語話者を対象としているものは、NLP、音声、AIコミュニティにおける研究の顕著なテーマとなっている。 研究者の多くは、エンドユーザに社会的利益をもたらす言語技術の優先順位付けのために、個々の専門知識、経験、あるいはアドホックな調査に頼ってきた。 このことは、LT4SGの開発には設計・開発プロセスにおいて対象とする言語コミュニティを含めなければならないと主張する学者によって批判されている。 しかしながら、LT4SGの作業や批判は、開発サイクル中にエンドユーザを組み込むための技術や手法の優先順位付けの原則的手法を示唆していない。 ここでは、経済学、倫理学、心理学、参加デザインの分野からインスピレーションを得た上で、エンドユーザの好みに合わせてLT4SGを優先順位付けするための一連の方法論を列挙する。 次に,提案手法に照らしていくつかのLT4SGの取り組みを分析し,その隠れた仮定と潜在的な落とし穴を明らかにした。 現在の研究は言語技術に限られていますが、ここで強調されている原則と優先順位付け技術は、AI for Social Goodにもっと広く適用できると考えています。

Development of speech and language technology for social good (LT4SG), especially those targeted at the welfare of marginalized communities and speakers of low-resource and under-served languages, has been a prominent theme of research within NLP, Speech, and the AI communities. Researchers have mostly relied on their individual expertise, experiences or ad hoc surveys for prioritization of language technologies that provide social good to the end-users. This has been criticized by several scholars who argue that work on LT4SG must include the target linguistic communities during the design and development process. However, none of the LT4SG work and their critiques suggest principled techniques for prioritization of the technologies and methods for inclusion of the end-user during the development cycle. Drawing inspiration from the fields of Economics, Ethics, Psychology, and Participatory Design, here we chart out a set of methodologies for prioritizing LT4SG that are aligned with the end-user preferences. We then analyze several LT4SG efforts in light of the proposed methodologies and bring out their hidden assumptions and potential pitfalls. While the current study is limited to language technologies, we believe that the principles and prioritization techniques highlighted here are applicable more broadly to AI for Social Good.
翻訳日:2021-10-15 19:12:54 公開日:2021-10-14
# (参考訳) 人間-ロボット協調と機械学習 : 最近の研究の体系的レビュー [全文訳有]

Human-Robot Collaboration and Machine Learning: A Systematic Review of Recent Research ( http://arxiv.org/abs/2110.07448v1 )

ライセンス: CC BY 4.0
Francesco Semeraro, Alexander Griffiths and Angelo Cangelosi(参考訳) テクノロジーの進歩は、日常生活で人と対話するロボットの利用をますます思い描いている。 ヒューマン・ロボット・コラボレーション(human-robot collaboration、hrc)は、実際の作業の完了時に人間とロボットのインタラクションを探索するアプローチである。 このような相互作用は認知レベルと身体レベルの両方で検討され、情報の相互交換と機械的パワーをそれぞれ分析する。 hrcの作業では、一般的に認知モデルが構築され、環境やユーザから入力を収集し、これらを精巧に説明し、ロボット自身で使用できる情報に変換する。 HRC研究は、機械学習アルゴリズムを用いて、取得した外部入力を精査する認知モデルと行動ブロックを構築する。 これはまだ初期段階で有望なアプローチであり、機械学習の分野の成長による大きなメリットの可能性を秘めている。 そこで本研究では,人間とロボットのコラボレーションの文脈における機械学習技術の利用に関する詳細な文献レビューを提案する。 ロボット工学と機械学習に関する文献の広範なレビューから選択された45の重要論文の収集、選定、分析により、hrcの現在のトレンドの特定が可能となった。 特に,協調作業の種類,評価指標,認知変数をモデル化した作業のクラスタリングを提案する。 これらの前提により、機械学習アルゴリズムのさまざまなファミリーとその特性に関する深い分析と、使用したセンシングのモダリティが実施された。 分析の有意義な側面を考察し,今後の研究で取り組むべき課題を示唆する。

Technological progress increasingly envisions the use of robots interacting with people in everyday life. Human-robot collaboration (HRC) is the approach that explores the interaction between a human and a robot, during the completion of an actual physical task. Such interplay is explored both at the cognitive and physical level, by respectively analysing the mutual exchange of information and mechanical power. In HRC works, a cognitive model is typically built, which collects inputs from the environment and from the user, elaborates and translates these into information that can be used by the robot itself. HRC studies progressively employ machine learning algorithms to build the cognitive models and behavioural block that elaborates the acquired external inputs. This is a promising approach still in its early stages and with the potential of significant benefit from the growing field of machine learning. Consequently, this paper proposes a thorough literature review of the use of machine learning techniques in the context of human-robot collaboration. The collection,selection and analysis of the set of 45 key papers, selected from the wide review of the literature on robotics and machine learning, allowed the identification of the current trends in HRC. In particular, a clustering of works based on the type of collaborative tasks, evaluation metrics and cognitive variables modelled is proposed. With these premises, a deep analysis on different families of machine learning algorithms and their properties, along with the sensing modalities used, was carried out. The salient aspects of the analysis are discussed to show trends and suggest possible challenges to tackle in the future research.
翻訳日:2021-10-15 18:57:39 公開日:2021-10-14
# (参考訳) 等変表現からの群不変リニア読み出し能力: 可視的ビューの下でリニア分類できるオブジェクトはいくつあるか? [全文訳有]

Capacity of Group-invariant Linear Readouts from Equivariant Representations: How Many Objects can be Linearly Classified Under All Possible Views? ( http://arxiv.org/abs/2110.07472v1 )

ライセンス: CC BY 4.0
Matthew Farrell, Blake Bordelon, Shubhendu Trivedi and Cengiz Pehlevan(参考訳) 等分散は、翻訳や回転のような群を構成するアイデンティティ保存変換の対象となる対象の表現の望ましい性質として現れる。 しかし、群同値性によって制約された表現の表現性はまだ完全には理解されていない。 このギャップは、対象の同変表現に割り当てられる線形分離可能かつ群不変な二項二コトミーの数を定量化するカバー関数数定理の一般化によって解決される。 分離可能な二コトミーの分数は群作用によって固定される空間の次元によって決定される。 この関係が畳み込み、要素の非線形性、大域的および局所的なプーリングといった操作にどのように拡張されるかを示す。 他の操作は分離可能な二コトミの分数を変えないが、局所的なプーリングは、非常に非線形な操作であるにもかかわらず、分数を減らす。 最後に、ランダムに初期化され完全に訓練された畳み込みニューラルネットワークの中間表現に関する理論をテストし、完全な一致を見出す。

Equivariance has emerged as a desirable property of representations of objects subject to identity-preserving transformations that constitute a group, such as translations and rotations. However, the expressivity of a representation constrained by group equivariance is still not fully understood. We address this gap by providing a generalization of Cover's Function Counting Theorem that quantifies the number of linearly separable and group-invariant binary dichotomies that can be assigned to equivariant representations of objects. We find that the fraction of separable dichotomies is determined by the dimension of the space that is fixed by the group action. We show how this relation extends to operations such as convolutions, element-wise nonlinearities, and global and local pooling. While other operations do not change the fraction of separable dichotomies, local pooling decreases the fraction, despite being a highly nonlinear operation. Finally, we test our theory on intermediate representations of randomly initialized and fully trained convolutional neural networks and find perfect agreement.
翻訳日:2021-10-15 18:26:51 公開日:2021-10-14
# (参考訳) クエリと抽出: 型指向バイナリデコードとしてのイベント抽出の洗練 [全文訳有]

Query and Extract: Refining Event Extraction as Type-oriented Binary Decoding ( http://arxiv.org/abs/2110.07476v1 )

ライセンス: CC BY 4.0
Sijia Wang, Mo Yu, Shiyu Chang, Lichao Sun, Lifu Huang(参考訳) イベント抽出は通常、イベントタイプと引数の役割の両方が原子記号として扱われるマルチクラス分類問題としてモデル化される。 これらのアプローチは通常、事前に定義された型に制限される。 入力テキストから候補トリガと引数を抽出するために,イベントタイプと引数ロールを自然言語クエリとして取り出す新しいイベント抽出フレームワークを提案する。 クエリのリッチなセマンティクスによって、私たちのフレームワークは、イベントタイプや引数ロールと入力テキスト間のセマンティクス相関をよりよく捉えるための注意機構の恩恵を受けます。 さらに、クエリ・アンド・抽出方式により、様々なオントロジーから利用可能なすべてのイベントアノテーションを統一モデルとして活用することができる。 ACE と ERE の2つの公開ベンチマーク実験により,提案手法が各データセットの最先端性能を実現し,ゼロショットイベント抽出における既存手法を著しく上回ることを示す。 論文が受理されたら、すべてのプログラムを公開します。

Event extraction is typically modeled as a multi-class classification problem where both event types and argument roles are treated as atomic symbols. These approaches are usually limited to a set of pre-defined types. We propose a novel event extraction framework that takes event types and argument roles as natural language queries to extract candidate triggers and arguments from the input text. With the rich semantics in the queries, our framework benefits from the attention mechanisms to better capture the semantic correlation between the event types or argument roles and the input text. Furthermore, the query-and-extract formulation allows our approach to leverage all available event annotations from various ontologies as a unified model. Experiments on two public benchmarks, ACE and ERE, demonstrate that our approach achieves state-of-the-art performance on each dataset and significantly outperforms existing methods on zero-shot event extraction. We will make all the programs publicly available once the paper is accepted.
翻訳日:2021-10-15 17:53:43 公開日:2021-10-14
# (参考訳) 言語モデルにおける個々のニューロンの分析の落とし穴について [全文訳有]

On the Pitfalls of Analyzing Individual Neurons in Language Models ( http://arxiv.org/abs/2110.07483v1 )

ライセンス: CC BY 4.0
Omer Antverg and Yonatan Belinkov(参考訳) 多くの研究は、言語情報は隠れた単語表現でエンコードされていることを示しているが、それがどのようにエンコードされるかを示すために、個々のニューロンを研究することは少ない。 これらのうちの一般的なアプローチは、外部プローブを使用して、ある言語的属性との関連性に応じてニューロンをランク付けし、それを生成した同じプローブを用いて得られたランクを評価することである。 この方法論には2つの落とし穴があります 1. プローブ品質とランキング品質という,異なる要因を考察する。 私たちはそれらを分離し、それぞれの結論を引き出す。 2.モデルが使用する情報ではなく、エンコードされた情報に焦点を当てている。 これらは同じではないことを示します。 本稿では,最近導入した2つのランキング手法と簡単な手法を比較し,両者について評価する。

While many studies have shown that linguistic information is encoded in hidden word representations, few have studied individual neurons, to show how and in which neurons it is encoded. Among these, the common approach is to use an external probe to rank neurons according to their relevance to some linguistic attribute, and to evaluate the obtained ranking using the same probe that produced it. We show two pitfalls in this methodology: 1. It confounds distinct factors: probe quality and ranking quality. We separate them and draw conclusions on each. 2. It focuses on encoded information, rather than information that is used by the model. We show that these are not the same. We compare two recent ranking methods and a simple one we introduce, and evaluate them with regard to both of these aspects.
翻訳日:2021-10-15 17:36:44 公開日:2021-10-14
# (参考訳) データ効率のよいディープラーニングのためのOmni-Training

Omni-Training for Data-Efficient Deep Learning ( http://arxiv.org/abs/2110.07510v1 )

ライセンス: CC BY 4.0
Yang Shu, Zhangjie Cao, Jinghan Gao, Jianmin Wang, Mingsheng Long(参考訳) 短期間にいくつかの例から一般化可能な深層モデルを学ぶことは、マシンラーニングの大きな課題であり、多くのシナリオに広範に展開することを妨げている。 近年の進歩により、適切に訓練されたモデルが重要な特性であるトランスファービリティを持つことが明らかとなった。 学習表現のより高い転送性は、異なる分散領域(ドメイン転送可能性)や異なる意味(タスク転送可能性)のタスクをまたいだより優れた一般化性を示す。 トランスファービリティはデータ効率の深い学習を可能にする鍵となっているが、既存の事前トレーニング手法はドメイントランスファービリティのみに焦点を当て、メタトレーニング手法はタスクトランスファービリティのみに焦点を当てている。 これにより、ドメインとタスクの分散という下流シナリオにおけるデータ効率が制限される。 本稿では,事前学習とメタトレーニングの密接な組み合わせでも,両種類の伝達能力が得られないことを示す。 これは、データ効率のよいディープラーニングに向けて提案された全学学習フレームワークを動機付けている。 最初のコントリビューションは,トリフローアーキテクチャであるOmni-Netです。 共同表現フローに加えて、Omni-Netは2つの新しい並列フローを導入し、それぞれがドメイン転送可能性とタスク転送可能性の学習を行う。 Omni-Netは、ジョイントフローを介してそれらをルーティングすることで並列フローを調整する。 第2の貢献はomni-lossで、平均教師正規化は一般化と安定化された表現を学ぶために課される。 Omni-Trainingは多くの既存の事前トレーニングおよびメタトレーニングアルゴリズムに対応する一般的なフレームワークである。 分類、回帰、強化学習問題におけるクロスタスクおよびクロスドメインデータセットの徹底的な評価により、omni-trainingは最先端の手法を一貫して上回っていることが示された。

Learning a generalizable deep model from a few examples in a short time remains a major challenge of machine learning, which has impeded its wide deployment to many scenarios. Recent advances reveal that a properly pre-trained model endows an important property: transferability. A higher transferability of the learned representations indicates a better generalizability across domains of different distributions (domain transferability), or across tasks of different semantics (task transferability). Transferability has become the key to enable data-efficient deep learning, however, existing pre-training methods focus only on the domain transferability while meta-training methods only on the task transferability. This restricts their data-efficiency in downstream scenarios of diverging domains and tasks. A finding of this paper is that even a tight combination of pre-training and meta-training cannot achieve both kinds of transferability. This motivates the proposed Omni-Training framework towards data-efficient deep learning. Our first contribution is Omni-Net, a tri-flow architecture. Besides the joint representation flow, Omni-Net introduces two new parallel flows for pre-training and meta-training, respectively responsible for learning representations of domain transferability and task transferability. Omni-Net coordinates the parallel flows by routing them via the joint-flow, making each gain the other kind of transferability. Our second contribution is Omni-Loss, in which a mean-teacher regularization is imposed to learn generalizable and stabilized representations. Omni-Training is a general framework that accommodates many existing pre-training and meta-training algorithms. A thorough evaluation on cross-task and cross-domain datasets in classification, regression and reinforcement learning problems shows that Omni-Training consistently outperforms the state-of-the-art methods.
翻訳日:2021-10-15 17:13:59 公開日:2021-10-14
# (参考訳) 二重クラウドソーシングによるRNA分解予測モデル [全文訳有]

Predictive models of RNA degradation through dual crowdsourcing ( http://arxiv.org/abs/2110.07531v1 )

ライセンス: CC BY 4.0
Hannah K. Wayment-Steele, Wipapat Kladwang, Andrew M. Watkins, Do Soon Kim, Bojan Tunguz, Walter Reade, Maggie Temkin, Jonathan Romano, Roger Wellington-Oguri, John J. Nicol, Jiayang Gao, Kazuki Onodera, Kazuki Fujikawa, Hanfei Mao, Gilles Vandewiele, Michele Tinti, Bram Steenwinckel, Takuya Ito, Taiga Noumi, Shujun He, Keiichiro Ishi, Youhan Lee, Fatih \"Ozt\"urk, Anthony Chiu, Emin \"Ozt\"urk, Karim Amer, Mohamed Fares, Eterna Participants, Rhiju Das(参考訳) メッセンジャーrnaベースの薬は、新型コロナウイルスワクチンとして急速に展開していることからもわかるように、大きな可能性を秘めている。 しかし、世界中のmRNA分子の分布は熱安定性によって制限されており、基本的にはRNA分子の内在的不安定性から、インライン加水分解と呼ばれる化学分解反応に制限されている。 RNA分子の劣化を予測することは、より安定したRNAベースの治療を設計する上で重要な課題である。 本稿では、Kaggle上のクラウドソーシング機械学習コンペ("Stanford OpenVaccine")について説明する。これには、6043 102-130ヌクレオチドの多様なRNA構造に対する単一ヌクレオチド分解能の測定が含まれる。 実験は6ヶ月以内に完了した。 勝者モデルは、以前の最先端のDegScoreモデルよりも50%良いテストセットエラーを示した。 さらにこれらのモデルは、より長いmRNA分子(504-1588ヌクレオチド)の直交劣化データを盲目的に予測するために一般化され、DegScoreや他のモデルよりも精度が向上した。 トップチームは、自然言語処理アーキテクチャとデータ拡張技術を統合し、rna二次構造のための以前の動的プログラミングモデルから予測した。 これらの結果から, これらのモデルでは, 高い精度でインライン加水分解を表現できることが示唆された。 データセット作成と機械学習のための2つのクラウドソーシングプラットフォームの統合は、迅速なタイムスケールで科学的発見を要求する他の緊急問題に対して有益である可能性がある。

Messenger RNA-based medicines hold immense potential, as evidenced by their rapid deployment as COVID-19 vaccines. However, worldwide distribution of mRNA molecules has been limited by their thermostability, which is fundamentally limited by the intrinsic instability of RNA molecules to a chemical degradation reaction called in-line hydrolysis. Predicting the degradation of an RNA molecule is a key task in designing more stable RNA-based therapeutics. Here, we describe a crowdsourced machine learning competition ("Stanford OpenVaccine") on Kaggle, involving single-nucleotide resolution measurements on 6043 102-130-nucleotide diverse RNA constructs that were themselves solicited through crowdsourcing on the RNA design platform Eterna. The entire experiment was completed in less than 6 months. Winning models demonstrated test set errors that were better by 50% than the previous state-of-the-art DegScore model. Furthermore, these models generalized to blindly predicting orthogonal degradation data on much longer mRNA molecules (504-1588 nucleotides) with improved accuracy over DegScore and other models. Top teams integrated natural language processing architectures and data augmentation techniques with predictions from previous dynamic programming models for RNA secondary structure. These results indicate that such models are capable of representing in-line hydrolysis with excellent accuracy, supporting their use for designing stabilized messenger RNAs. The integration of two crowdsourcing platforms, one for data set creation and another for machine learning, may be fruitful for other urgent problems that demand scientific discovery on rapid timescales.
翻訳日:2021-10-15 17:12:45 公開日:2021-10-14
# (参考訳) 神経合理モデルの不合理性 [全文訳有]

The Irrationality of Neural Rationale Models ( http://arxiv.org/abs/2110.07550v1 )

ライセンス: CC BY 4.0
Yiming Zheng, Serena Booth, Julie Shah, Yilun Zhou(参考訳) ニューラル合理モデルはnlpタスクの解釈可能な予測によく用いられる。 セレクタは、有理数と呼ばれる入力テキストのセグメントを抽出し、これらのセグメントを予測のための分類器に渡す。 理性は分類器にアクセスできる唯一の情報であるため、説明として妥当に定義される。 そのような特徴は無条件で正しいか? 本稿では、哲学的視点と経験的証拠の両方で、有理モデルが、おそらく予想されるよりも合理的で解釈可能でないことを示唆して、反対に論じる。 我々はこれらのモデルのより厳密で包括的な評価を求め、解釈可能性の望ましい特性が実際に達成されることを保証する。 コードはhttps://github.com/y imingz89/Neural-Rati onale-Analysisで見ることができる。

Neural rationale models are popular for interpretable predictions of NLP tasks. In these, a selector extracts segments of the input text, called rationales, and passes these segments to a classifier for prediction. Since the rationale is the only information accessible to the classifier, it is plausibly defined as the explanation. Is such a characterization unconditionally correct? In this paper, we argue to the contrary, with both philosophical perspectives and empirical evidence suggesting that rationale models are, perhaps, less rational and interpretable than expected. We call for more rigorous and comprehensive evaluations of these models to ensure desired properties of interpretability are indeed achieved. The code can be found at https://github.com/y imingz89/Neural-Rati onale-Analysis.
翻訳日:2021-10-15 17:00:23 公開日:2021-10-14
# (参考訳) 不均一データを用いたリソース制約付きフェデレートエッジラーニング:定式化と解析 [全文訳有]

Resource-constrained Federated Edge Learning with Heterogeneous Data: Formulation and Analysis ( http://arxiv.org/abs/2110.07567v1 )

ライセンス: CC0 1.0
Yi Liu, Yuanshao Zhu, James J.Q. Yu(参考訳) 協調機械学習と無線通信技術による効率的なコラボレーションは、フェデレーション・エッジ・ラーニング(feel)を形成し、次世代のインテリジェント・アプリケーションを生み出した。 しかし、ネットワーク接続のオープン性のため、FEELフレームワークは一般的に数百のリモートデバイス(またはクライアント)を伴い、リソース制約のFEELには適さない高価な通信コストをもたらす。 この問題に対処するために, FEELリソースの制約(通信資源の観点から)を軽減するために, 高速収束速度を有する分散近似ニュートン型アルゴリズムを提案する。 具体的には, 分散l-bfgsアルゴリズムに基づき, 提案手法を改良し, 低コストフィッシャー行列を分散的に計算することにより, 分散l-bfgsアルゴリズムを用いて高コストヘッシアン行列を近似し, 収束を高速化する。 第二に, 提案アルゴリズムは, 強凸および非凸の場合の線形収束を証明し, その計算および通信の複雑さを解析する。 同様に、接続されたリモートデバイスの不均一性のため、FEELは異種データと非IID(独立および独立分散)データの課題に直面している。 そこで我々は,ヘテロジニアスデータによる不均質な統計的課題を解決するため,単純かつエレガントなトレーニングスキームfedovaを設計した。 このようにフェドバは、まず、多クラス分類問題をより単純な二分分類問題に分解し、その後、アンサンブル学習を用いてそれぞれの出力を結合する。 特に、このスキームは、FEELを提供するための通信効率の良いアルゴリズムとうまく統合することができる。 提案アルゴリズムの有効性と優位性を検証した。

Efficient collaboration between collaborative machine learning and wireless communication technology, forming a Federated Edge Learning (FEEL), has spawned a series of next-generation intelligent applications. However, due to the openness of network connections, the FEEL framework generally involves hundreds of remote devices (or clients), resulting in expensive communication costs, which is not friendly to resource-constrained FEEL. To address this issue, we propose a distributed approximate Newton-type algorithm with fast convergence speed to alleviate the problem of FEEL resource (in terms of communication resources) constraints. Specifically, the proposed algorithm is improved based on distributed L-BFGS algorithm and allows each client to approximate the high-cost Hessian matrix by computing the low-cost Fisher matrix in a distributed manner to find a "better" descent direction, thereby speeding up convergence. Second, we prove that the proposed algorithm has linear convergence in strongly convex and non-convex cases and analyze its computational and communication complexity. Similarly, due to the heterogeneity of the connected remote devices, FEEL faces the challenge of heterogeneous data and non-IID (Independent and Identically Distributed) data. To this end, we design a simple but elegant training scheme, namely FedOVA, to solve the heterogeneous statistical challenge brought by heterogeneous data. In this way, FedOVA first decomposes a multi-class classification problem into more straightforward binary classification problems and then combines their respective outputs using ensemble learning. In particular, the scheme can be well integrated with our communication efficient algorithm to serve FEEL. Numerical results verify the effectiveness and superiority of the proposed algorithm.
翻訳日:2021-10-15 16:48:53 公開日:2021-10-14
# (参考訳) smgc:磁気ラプラシアンによる有向グラフの複素値グラフ畳み込みネットワーク [全文訳有]

sMGC: A Complex-Valued Graph Convolutional Network via Magnetic Laplacian for Directed Graphs ( http://arxiv.org/abs/2110.07570v1 )

ライセンス: CC BY 4.0
Jie Zhang, Bo Hui, Po-Wei Harn, Min-Te Sun, and Wei-Shinn Ku(参考訳) グラフニューラルネットワークの最近の進歩は、ノード分類のためのグラフの表現学習における最先端のパフォーマンスをもたらした。 しかし、既存の作業の大多数はシンメトリゼーションによってグラフを指向しており、方向情報の損失を引き起こす可能性がある。 本稿では,複合相を組合せラプラシアンの変形として符号化することにより,エッジ方向を保存できる磁気ラプラシアンを提案する。 さらに,グラフからグローバルな特徴を学習可能な自動回帰移動平均フィルタ(ARMA)を設計する。 時間的複雑性を低減するため、テイラー拡張を用いてフィルタを近似する。 グラフニューラルネットワークにおける複雑な演算を導出し、単純化された磁気グラフ畳み込みネットワーク、すなわちsMGCを考案する。 実験の結果,sMGCは高速で強力で広く適用可能なGNNであることがわかった。

Recent advancements in Graph Neural Networks have led to state-of-the-art performance on representation learning of graphs for node classification. However, the majority of existing works process directed graphs by symmetrization, which may cause loss of directional information. In this paper, we propose the magnetic Laplacian that preserves edge directionality by encoding it into complex phase as a deformation of the combinatorial Laplacian. In addition, we design an Auto-Regressive Moving-Average (ARMA) filter that is capable of learning global features from graphs. To reduce time complexity, Taylor expansion is applied to approximate the filter. We derive complex-valued operations in graph neural network and devise a simplified Magnetic Graph Convolution network, namely sMGC. Our experiment results demonstrate that sMGC is a fast, powerful, and widely applicable GNN.
翻訳日:2021-10-15 16:20:14 公開日:2021-10-14
# (参考訳) ネットワーク表現学習: 前処理から特徴抽出からノード埋め込みへ

Network Representation Learning: From Preprocessing, Feature Extraction to Node Embedding ( http://arxiv.org/abs/2110.07582v1 )

ライセンス: CC BY 4.0
Jingya Zhou, Ling Liu, Wenqi Wei, Jianxi Fan(参考訳) ネットワーク表現学習(NRL)は、ソーシャルネットワーク、知識グラフ、複雑なバイオメディカルおよび物理情報ネットワークの従来のグラフマイニングを進歩させる。 数十以上のネットワーク表現学習アルゴリズムが文献で報告されている。 ほとんどは均質なネットワークのためのノード埋め込みの学習に焦点を当てているが、特定のエンコーディングスキームやノードセマンティクスの特定のタイプが異なるため、ノード埋め込みの学習に使われる。 本稿では,同種ネットワーク上でのネットワーク表現学習における設計原理と異なるノード埋め込み手法について述べる。 異なるノード埋め込みアルゴリズムの比較を容易にするために,ネットワーク上のノード埋め込み学習プロセスを前処理ステップ,ノード特徴抽出ステップ,リンク予測やノードクラスタリングなどのnrlタスクのためのノード埋め込みモデルトレーニングに分割,一般化する統一参照フレームワークを提案する。 この統一参照フレームワークにより、ノード埋め込みモデル学習プロセスのさまざまなステージで使用される代表的な方法、モデル、およびテクニックを強調する。 この調査は、研究者や実践者が異なるネットワーク表現学習技術を深く理解するのに役立つだけでなく、次世代のネットワーク表現学習アルゴリズムやシステムの設計と開発のための実践的なガイドラインを提供する。

Network representation learning (NRL) advances the conventional graph mining of social networks, knowledge graphs, and complex biomedical and physics information networks. Over dozens of network representation learning algorithms have been reported in the literature. Most of them focus on learning node embeddings for homogeneous networks, but they differ in the specific encoding schemes and specific types of node semantics captured and used for learning node embedding. This survey paper reviews the design principles and the different node embedding techniques for network representation learning over homogeneous networks. To facilitate the comparison of different node embedding algorithms, we introduce a unified reference framework to divide and generalize the node embedding learning process on a given network into preprocessing steps, node feature extraction steps and node embedding model training for a NRL task such as link prediction and node clustering. With this unifying reference framework, we highlight the representative methods, models, and techniques used at different stages of the node embedding model learning process. This survey not only helps researchers and practitioners to gain an in-depth understanding of different network representation learning techniques but also provides practical guidelines for designing and developing the next generation of network representation learning algorithms and systems.
翻訳日:2021-10-15 16:06:32 公開日:2021-10-14
# (参考訳) フルウェーブフォーム逆変換の教師なし学習:CNNとループ部分微分方程式を接続する [全文訳有]

Unsupervised Learning of Full-Waveform Inversion: Connecting CNN and Partial Differential Equation in a Loop ( http://arxiv.org/abs/2110.07584v1 )

ライセンス: CC BY 4.0
Peng Jin, Xitong Zhang, Yinpeng Chen, Sharon Xiaolei Huang, Zicheng Liu, Youzuo Lin(参考訳) 本稿では,地震データから地下速度マップを推定するために,地球物理学において広く用いられているフルウェーブフォームインバージョン(fwi)の教師なし学習について検討する。 この問題は2階偏微分方程式(PDE)によって数学的に定式化されているが、解くのは難しい。 さらに、速度マップの取得は非常に高価であり、地震データから畳み込みニューラルネットワーク(CNN)を用いた速度マップへのマッピングをトレーニングするための教師ありアプローチのスケールアップは不可能である。 我々は,pde と cnn をループに統合し,地震データのみを必要とする教師なし学習にパラダイムをシフトすることで,これらの課題に対処する。 特に,(速度マップから地震データまで)微分可能作用素としてのpdeの前方モデリングを近似し,cnn(地震データから速度マップまで)による反転をモデル化するために有限差分を用いる。 そこで,教師あり逆タスクを教師なしの地震データ復元タスクに変換する。 また、コミュニティにとってより困難なベンチマークを確立するために、新しい大規模データセットOpenFWIも導入しました。 実験の結果,(地震データのみを用いた)モデルが,(地震データと速度マップの両方を用いて)教師付きモデルに匹敵する精度を示すことがわかった。 さらに、より多くの地震データを含む場合、教師付きモデルを上回る。

This paper investigates unsupervised learning of Full-Waveform Inversion (FWI), which has been widely used in geophysics to estimate subsurface velocity maps from seismic data. This problem is mathematically formulated by a second order partial differential equation (PDE), but is hard to solve. Moreover, acquiring velocity map is extremely expensive, making it impractical to scale up a supervised approach to train the mapping from seismic data to velocity maps with convolutional neural networks (CNN). We address these difficulties by integrating PDE and CNN in a loop, thus shifting the paradigm to unsupervised learning that only requires seismic data. In particular, we use finite difference to approximate the forward modeling of PDE as a differentiable operator (from velocity map to seismic data) and model its inversion by CNN (from seismic data to velocity map). Hence, we transform the supervised inversion task into an unsupervised seismic data reconstruction task. We also introduce a new large-scale dataset OpenFWI, to establish a more challenging benchmark for the community. Experiment results show that our model (using seismic data alone) yields comparable accuracy to the supervised counterpart (using both seismic data and velocity map). Furthermore, it outperforms the supervised model when involving more seismic data.
翻訳日:2021-10-15 16:05:22 公開日:2021-10-14
# (参考訳) 3Dヒューマンリカバリをめざして [全文訳有]

Playing for 3D Human Recovery ( http://arxiv.org/abs/2110.07588v1 )

ライセンス: CC BY 4.0
Zhongang Cai, Mingyuan Zhang, Jiawei Ren, Chen Wei, Daxuan Ren, Jiatong Li, Zhengyu Lin, Haiyu Zhao, Shuai Yi, Lei Yang, Chen Change Loy, Ziwei Liu(参考訳) 画像と映像に基づく3次元人間の回復(ポーズと形状の推定)は、大きな進歩を遂げた。 しかし、モーションキャプチャーの禁止コストのため、既存のデータセットはスケールや多様性に制限されることが多く、より強力なモデルの開発を妨げている。 そこで本研究では,ビデオゲームをプレイすることで,膨大な人間のシーケンスと3Dの地上真実を得る。 具体的には,GTA-Vゲームエンジンで生成した大規模かつ高多様性な3次元人的データセットであるGTA-Humanに貢献する。 テーマ、アクション、シナリオの豊富なセットでは、GTA-Humanは両方の効果的なトレーニングソースとして機能する。 特に「データの不合理な有効性」現象は,ゲームプレイデータを用いて3次元人間の回復において検証される。 GTA-Humanでトレーニングされた単純なフレームベースのベースラインは、ビデオベースの手法では、ドメイン内のトレーニングセットよりも優れていることを示す。 我々は、同じ一貫した改善を観察するために、より大規模なモデルに研究を拡張し、監視信号の研究は、SMPLアノテーションの豊富な収集が重要であることを示唆している。 さらに,GTA-Humanの多彩なアノテーションを用いて,カメラアングル,ポーズ,オクルージョンなど,現実世界のさまざまなバリエーションの下で様々な手法の性能を体系的に検討する。 私たちは、人間の3Dリカバリを現実世界に拡大するための道を開いたいと考えています。

Image- and video-based 3D human recovery (i.e. pose and shape estimation) have achieved substantial progress. However, due to the prohibitive cost of motion capture, existing datasets are often limited in scale and diversity, which hinders the further development of more powerful models. In this work, we obtain massive human sequences as well as their 3D ground truths by playing video games. Specifically, we contribute, GTA-Human, a mega-scale and highly-diverse 3D human dataset generated with the GTA-V game engine. With a rich set of subjects, actions, and scenarios, GTA-Human serves as both an effective training source. Notably, the "unreasonable effectiveness of data" phenomenon is validated in 3D human recovery using our game-playing data. A simple frame-based baseline trained on GTA-Human already outperforms more sophisticated methods by a large margin; for video-based methods, GTA-Human demonstrates superiority over even the in-domain training set. We extend our study to larger models to observe the same consistent improvements, and the study on supervision signals suggests the rich collection of SMPL annotations is key. Furthermore, equipped with the diverse annotations in GTA-Human, we systematically investigate the performance of various methods under a wide spectrum of real-world variations, e.g. camera angles, poses, and occlusions. We hope our work could pave way for scaling up 3D human recovery to the real world.
翻訳日:2021-10-15 15:52:16 公開日:2021-10-14
# 部分ネスト情報構造を持つ分散線形二次レギュレータのサンプル複雑性について

On the Sample Complexity of Decentralized Linear Quadratic Regulator with Partially Nested Information Structure ( http://arxiv.org/abs/2110.07112v1 )

ライセンス: Link先を確認
Lintao Ye, Hao Zhu, Vijay Gupta(参考訳) システムモデルが不明な場合, 部分ネスト情報構造を持つ分散状態フィードバック線形二次制御における制御ポリシー設計の問題点について検討する。 2つのステップからなるモデルベース学習ソリューションを提案する。 まず,最小二乗推定を用いて,有限長の単一系軌道から未知の系モデルを推定する。 次に、推定システムモデルに基づいて、所望の情報構造を満たす制御ポリシーを設計する。 制御ポリシと最適分散制御ポリシ(システムモデルの正確な知識を用いて設計された)の最適性差は,システムモデルの推定誤差と線形にスケールすることを示す。 この結果を用いて,部分ネストした情報構造を持つ線形二次制御問題の分散制御を学習するための,エンドツーエンドのサンプル複雑性結果を提供する。

We study the problem of control policy design for decentralized state-feedback linear quadratic control with a partially nested information structure, when the system model is unknown. We propose a model-based learning solution, which consists of two steps. First, we estimate the unknown system model from a single system trajectory of finite length, using least squares estimation. Next, based on the estimated system model, we design a control policy that satisfies the desired information structure. We show that the suboptimality gap between our control policy and the optimal decentralized control policy (designed using accurate knowledge of the system model) scales linearly with the estimation error of the system model. Using this result, we provide an end-to-end sample complexity result for learning decentralized controllers for a linear quadratic control problem with a partially nested information structure.
翻訳日:2021-10-15 15:28:37 公開日:2021-10-14
# MIMO-NOMAにおけるセキュアプリコーディング : 深層学習アプローチ

Secure Precoding in MIMO-NOMA: A Deep Learning Approach ( http://arxiv.org/abs/2110.07121v1 )

ライセンス: Link先を確認
Jordan Pauls and Mojtaba Vaezi(参考訳) ディープニューラルネットワーク(DNN)を用いた2ユーザマルチインプット多重出力非直交多重アクセスチャネル上でのセキュア伝送のための新しいシグナリング設計を提案する。 DNNの目標は、各ユーザのメッセージがメッセージから秘密にされながら確実に送信されるように、ユーザの信号の共分散行列を形成することである。 提案したDNNは,各ユーザの信号を重畳する前に線形にプリコードし,実行時間を大幅に短縮してほぼ最適性能を実現する。 シミュレーションの結果,提案モデルは秘密容量の約98%に達することがわかった。 dnnプリコーダのスペクトル効率は、既存の解析線形プリコーダよりもはるかに高く(例えば、一般化された特異値分解)、そのオン・ザ・フライの複雑さは、既存の反復法よりも数倍小さい。

A novel signaling design for secure transmission over two-user multiple-input multiple-output non-orthogonal multiple access channel using deep neural networks (DNNs) is proposed. The goal of the DNN is to form the covariance matrix of users' signals such that the message of each user is transmitted reliably while being confidential from its counterpart. The proposed DNN linearly precodes each user's signal before superimposing them and achieves near-optimal performance with significantly lower run time. Simulation results show that the proposed models reach about 98% of the secrecy capacity rates. The spectral efficiency of the DNN precoder is much higher than that of existing analytical linear precoders--e.g., generalized singular value decomposition--and its on-the-fly complexity is several times less than the existing iterative methods.
翻訳日:2021-10-15 15:28:24 公開日:2021-10-14
# SpecSinGAN:単一画像ガンを用いた音響効果変動合成

SpecSinGAN: Sound Effect Variation Synthesis Using Single-Image GANs ( http://arxiv.org/abs/2110.07311v1 )

ライセンス: Link先を確認
Adri\'an Barahona-R\'ios, Tom Collins(参考訳) 単一画像生成逆数ネットワークは、単一のトレーニング例の内部分布から学習し、そのバリエーションを生成し、大規模なデータセットの必要性を取り除く。 本稿では,一対一の音効果(例えば,フットステップ,キャラクタジャンプ)と,同一の録音セッションとは全く異なるような新しいバリエーションを生成する無条件生成アーキテクチャであるSpecSinGANを紹介する。 本研究では,マルチチャネルスペクトログラムを用いて,単一音響効果を構成する様々なレイヤのモデルを学習する。 本モデルと実記録およびディジタル信号処理方式の音声モデルを比較した聞き取り調査の結果,マルチチャネルスペクトログラムを用いた場合,スペックシンガンは検討したプロシーデュラルオーディオモデルよりも多様で多様であることが判明した。 例はプロジェクトのWebサイト(https://www.adrianb arahonarios.com/spec singan/)で見ることができる。

Single-image generative adversarial networks learn from the internal distribution of a single training example to generate variations of it, removing the need of a large dataset. In this paper we introduce SpecSinGAN, an unconditional generative architecture that takes a single one-shot sound effect (e.g., a footstep; a character jump) and produces novel variations of it, as if they were different takes from the same recording session. We explore the use of multi-channel spectrograms to train the model on the various layers that comprise a single sound effect. A listening study comparing our model to real recordings and to digital signal processing procedural audio models in terms of sound plausibility and variation revealed that SpecSinGAN is more plausible and varied than the procedural audio models considered, when using multi-channel spectrograms. Sound examples can be found at the project website: https://www.adrianba rahonarios.com/specs ingan/
翻訳日:2021-10-15 15:28:08 公開日:2021-10-14
# 非音声タスクのためのコンフォーメータ型自己教師付き学習

Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks ( http://arxiv.org/abs/2110.07313v1 )

ライセンス: Link先を確認
Sangeeta Srivastava, Yun Wang, Andros Tjandra, Anurag Kumar, Chunxi Liu, Kritika Singh, Yatharth Saraf(参考訳) ラベルのないデータからの表現学習は、人工知能研究において大きな関心を集めている。 音声研究コミュニティでは自己指導型音声表現学習が普及しているが,非音声音声タスクにおける音声表現学習を包括的に分析する研究はほとんどない。 本稿では,自己教師型音声表現学習法を提案し,それを下流の音声非音声タスクに適用する。 音声タスクの自己教師あり学習とパラメータ効率のよいコンフォーメータアーキテクチャに成功をおさめた,有名なwav2vec 2.0フレームワークを組み合わせる。 オーディオセットベンチマークでは、平均平均精度(map)スコアが0.415となり、これは音声のみの自己教師付き学習を通じて、このデータセットの最先端技術である。 我々の微調整コンバータは、いくつかの下流タスクにおいて教師付き方式で事前訓練された以前のシステムの性能を上回るか、一致します。 さらに、事前学習と微調整の両方において重要な設計上の考慮事項について論じる。

Representation learning from unlabeled data has been of major interest in artificial intelligence research. While self-supervised speech representation learning has been popular in the speech research community, very few works have comprehensively analyzed audio representation learning for non-speech audio tasks. In this paper, we propose a self-supervised audio representation learning method and apply it to a variety of downstream non-speech audio tasks. We combine the well-known wav2vec 2.0 framework, which has shown success in self-supervised learning for speech tasks, with parameter-efficient conformer architectures. On the AudioSet benchmark, we achieve a mean average precision (mAP) score of 0.415, which is a new state-of-the-art on this dataset through audio-only self-supervised learning. Our fine-tuned conformers also surpass or match the performance of previous systems pre-trained in a supervised way on several downstream tasks. We further discuss the important design considerations for both pre-training and fine-tuning.
翻訳日:2021-10-15 15:27:50 公開日:2021-10-14
# 完全分散通信による高能率マルチエージェント強化学習

Provably Efficient Multi-Agent Reinforcement Learning with Fully Decentralized Communication ( http://arxiv.org/abs/2110.07392v1 )

ライセンス: Link先を確認
Justin Lidard, Udari Madhushani, Naomi Ehrich Leonard(参考訳) 強化学習(RL)における課題は,探索に伴うサンプリングコストの最小化である。 分散探索はマルチエージェントRL(MARL)のサンプリング複雑性を低減する。 探検が完全に分散化されているMARLにおける性能の利点について検討する。 具体的には,オンライン,エピソディック,表形式の$q$学習問題を,エージェントが分散的にコミュニケーションできる時間変動報酬とトランジションダイナミクス(transition dynamics)下で考慮し,各エージェントが分散メッセージ・パッシング・プロトコルを使用する場合,その$\gamma$-hop近傍への情報送信に制限された場合でも,グループのパフォーマンスは,後悔のバウンドで測定されるように,コミュニケーションを通じて著しく向上することを示す。 我々は,エージェント数,通信ネットワーク構造,および$\gammaに依存する,後悔とサンプルの複雑性境界を証明する。 より多くのエージェントとより多くの情報共有をグループ学習方式に組み込むことで、最適なポリシーへの収束が加速することを示す。 数値シミュレーションは我々の結果を示し、理論的な主張を検証する。

A challenge in reinforcement learning (RL) is minimizing the cost of sampling associated with exploration. Distributed exploration reduces sampling complexity in multi-agent RL (MARL). We investigate the benefits to performance in MARL when exploration is fully decentralized. Specifically, we consider a class of online, episodic, tabular $Q$-learning problems under time-varying reward and transition dynamics, in which agents can communicate in a decentralized manner.We show that group performance, as measured by the bound on regret, can be significantly improved through communication when each agent uses a decentralized message-passing protocol, even when limited to sending information up to its $\gamma$-hop neighbors. We prove regret and sample complexity bounds that depend on the number of agents, communication network structure and $\gamma.$ We show that incorporating more agents and more information sharing into the group learning scheme speeds up convergence to the optimal policy. Numerical simulations illustrate our results and validate our theoretical claims.
翻訳日:2021-10-15 15:27:35 公開日:2021-10-14
# Infinite-Horizon POMDPにおけるメモリレス確率最適化の幾何学

The Geometry of Memoryless Stochastic Policy Optimization in Infinite-Horizon POMDPs ( http://arxiv.org/abs/2110.07409v1 )

ライセンス: Link先を確認
Guido Mont\'ufar, Johannes M\"uller(参考訳) 有限状態および作用空間を有する無限水平部分観測可能マルコフ決定過程(POMDP)に対して、割引条件または平均報酬基準のいずれかに関して、最適なメモリレス確率的ポリシーを求めることを考える。 評価された状態-作用周波数と予測累積報酬は政策の有理関数であり、その度合いは部分観測可能性の度合いによって決定されることを示す。 次に, 多項式制約を受ける状態動作周波数空間における線形最適化問題として, 明示的に特徴付ける最適化問題を記述した。 これにより、多項式最適化の最近のツールを用いて、最適化問題の組合せ的および幾何学的複雑さに対処することができる。 特に、部分可観測性制約が複数の滑らかでスムースでない局所最適化にどのようにつながるかを実証し、臨界点の数を推定する。

We consider the problem of finding the best memoryless stochastic policy for an infinite-horizon partially observable Markov decision process (POMDP) with finite state and action spaces with respect to either the discounted or mean reward criterion. We show that the (discounted) state-action frequencies and the expected cumulative reward are rational functions of the policy, whereby the degree is determined by the degree of partial observability. We then describe the optimization problem as a linear optimization problem in the space of feasible state-action frequencies subject to polynomial constraints that we characterize explicitly. This allows us to address the combinatorial and geometric complexity of the optimization problem using recent tools from polynomial optimization. In particular, we demonstrate how the partial observability constraints can lead to multiple smooth and non-smooth local optimizers and we estimate the number of critical points.
翻訳日:2021-10-15 15:27:13 公開日:2021-10-14
# 内因性ベイズ因子による可変長鎖の更新状態の検出

Detecting Renewal States in Chains of Variable Length via Intrinsic Bayes Factors ( http://arxiv.org/abs/2110.07430v1 )

ライセンス: Link先を確認
Victor Freguglia and Nancy Garcia(参考訳) 可変長のマルコフ連鎖は、ほとんどの定常的な離散記号列を生成できる相似確率モデルとして有用である。 その考え方は、未来のシンボルを予測することに関連する文脈と呼ばれる過去の接尾辞を特定することである。 ひとつの状態がコンテキストであり、過去を見て、この特定の状態を見つけることで、さらに過去の状態が無関係になる場合もあります。 これらの状態は更新状態と呼ばれ、鎖を独立したブロックに分割する。 可変長鎖の更新状態を特定するために,各更新状態の可算性を評価するために,内在的ベイズ係数を用いることを提案する。 この場合の難点は、遷移確率に先立つ文脈木とディリクレの空間上の一般的な事前分布に対するランダム文脈木に対する辺縁後分布を見つけることである。 本手法の強みを示すために,二元モデルモデルから生成された人工データセットと,言語学の分野からの例を解析した。

Markov chains with variable length are useful parsimonious stochastic models able to generate most stationary sequence of discrete symbols. The idea is to identify the suffixes of the past, called contexts, that are relevant to predict the future symbol. Sometimes a single state is a context, and looking at the past and finding this specific state makes the further past irrelevant. These states are called renewal states and they split the chain into independent blocks. In order to identify renewal states for chains with variable length, we propose the use of Intrinsic Bayes Factor to evaluate the plausibility of each set of renewal states. In this case, the difficulty lies in finding the marginal posterior distribution for the random context trees for general prior distribution on the space of context trees and Dirichlet prior for the transition probabilities. To show the strength of our method, we analyzed artificial datasets generated from two binary models models and one example coming from the field of Linguistics.
翻訳日:2021-10-15 15:26:10 公開日:2021-10-14
# 劣化ロバスト音声変換に向けて

Toward Degradation-Robust Voice Conversion ( http://arxiv.org/abs/2110.07537v1 )

ライセンス: Link先を確認
Chien-yu Huang, Kai-Wei Chang, Hung-yi Lee(参考訳) あらゆる音声変換技術は、発話の発声音を訓練中に見つからないあらゆる話者に変換する。 最先端の音声変換モデルがいくつか存在するが、すべてはクリーンな発話に基づいて変換に成功した。 しかし、現実のシナリオでは、話者のクリーンな発話を収集することは困難であり、通常はノイズや残響によって劣化する。 したがって、これらの劣化が音声変換にどのように影響するかを理解し、劣化ロバストモデルを構築することが強く望まれる。 本稿では,任意の音声変換の劣化頑健性に関する総合的研究を報告する。 近年の最先端モデルの性能は, 発話の劣化により著しく損なわれた。 そこで我々は,頑健さを向上させるために,音声強調結合と聴覚訓練を提案する。 また, 一般的な劣化に加えて, モデル出力を著しく変化させる逆方向雑音も人間の知覚に及ばない。 既製音声強調モデルとの結合と,音声変換モデルの発声訓練は,それぞれが長所と短所を有しながらロバスト性を改善することができた。

Any-to-any voice conversion technologies convert the vocal timbre of an utterance to any speaker even unseen during training. Although there have been several state-of-the-art any-to-any voice conversion models, they were all based on clean utterances to convert successfully. However, in real-world scenarios, it is difficult to collect clean utterances of a speaker, and they are usually degraded by noises or reverberations. It thus becomes highly desired to understand how these degradations affect voice conversion and build a degradation-robust model. We report in this paper the first comprehensive study on the degradation robustness of any-to-any voice conversion. We show that the performance of state-of-the-art models nowadays was severely hampered given degraded utterances. To this end, we then propose speech enhancement concatenation and denoising training to improve the robustness. In addition to common degradations, we also consider adversarial noises, which alter the model output significantly yet are human-imperceptible. It was shown that both concatenations with off-the-shelf speech enhancement models and denoising training on voice conversion models could improve the robustness, while each of them had pros and cons.
翻訳日:2021-10-15 15:25:56 公開日:2021-10-14
# 測地線凸性による行列およびテンソル正規モデルの最適サンプル複雑性

Near optimal sample complexity for matrix and tensor normal models via geodesic convexity ( http://arxiv.org/abs/2110.07583v1 )

ライセンス: Link先を確認
Cole Franks, Rafael Oliveira, Akshay Ramachandran, Michael Walter(参考訳) 行列正規モデルは、共分散行列が2つの低次元因子のクロネッカー積であるガウス行列-変量分布の族であり、行列-変量データのモデル化によく用いられる。 テンソル正規モデルは、この族を3つ以上の因子のクロネッカー積に一般化する。 行列およびテンソルモデルにおける共分散行列のクロネッカー因子の推定について検討した。 いくつかの自然測度において最大極大推定器(MLE)によって達成された誤差に対する漸近的境界を示す。 既存の境界とは対照的に、我々の結果は条件がよく、あるいは疎い要素に依存しない。 行列正規モデルでは、我々のすべての境界は対数係数まで極小最適であり、テンソル正規モデルでは、最大因子と全体共分散行列に対する境界は、任意の推定器が定数フロベニウス誤差を得るのに十分なサンプルが存在するような定数因子まで極小最適である。 サンプルの複雑性境界と同じ方法では、フリップフロップアルゴリズムとして知られるmleを計算する反復手順が線形に高確率収束することを示す。 我々の主なツールはフィッシャー情報計量によって誘導される正定値行列の幾何学における測地線強凸性である。 この強い凸性は、あるランダム量子チャネルの拡張によって決定される。 また,フリップフロップアルゴリズムと簡易縮小推定器を組み合わせることで,アンダーサンプリング方式の性能を向上させることができることを示す。

The matrix normal model, the family of Gaussian matrix-variate distributions whose covariance matrix is the Kronecker product of two lower dimensional factors, is frequently used to model matrix-variate data. The tensor normal model generalizes this family to Kronecker products of three or more factors. We study the estimation of the Kronecker factors of the covariance matrix in the matrix and tensor models. We show nonasymptotic bounds for the error achieved by the maximum likelihood estimator (MLE) in several natural metrics. In contrast to existing bounds, our results do not rely on the factors being well-conditioned or sparse. For the matrix normal model, all our bounds are minimax optimal up to logarithmic factors, and for the tensor normal model our bound for the largest factor and overall covariance matrix are minimax optimal up to constant factors provided there are enough samples for any estimator to obtain constant Frobenius error. In the same regimes as our sample complexity bounds, we show that an iterative procedure to compute the MLE known as the flip-flop algorithm converges linearly with high probability. Our main tool is geodesic strong convexity in the geometry on positive-definite matrices induced by the Fisher information metric. This strong convexity is determined by the expansion of certain random quantum channels. We also provide numerical evidence that combining the flip-flop algorithm with a simple shrinkage estimator can improve performance in the undersampled regime.
翻訳日:2021-10-15 15:25:39 公開日:2021-10-14
# vabo:非モデル化制約による閉ループ制御性能最適化のための違反回避ベイズ最適化

VABO: Violation-Aware Bayesian Optimization for Closed-Loop Control Performance Optimization with Unmodeled Constraints ( http://arxiv.org/abs/2110.07479v1 )

ライセンス: Link先を確認
Wenjie Xu, Colin N Jones, Bratislav Svetozarevic, Christopher R. Laughman, Ankush Chakrabarty(参考訳) 非モデル化力学を用いた閉ループ制御システムの性能最適化問題について検討する。 ベイズ最適化(BO)は,制御器ゲインや参照セットポイントをモデルフリーで自動チューニングすることで,閉ループ性能向上に有効であることが実証されている。 しかし、bo法が非モデル化制約のある力学系でテストされることは滅多にない。 本稿では,制約対応ソリューションを同時に学習しながらクローズドループ性能を最適化する,違反対応BOアルゴリズムを提案する。 制約違反を無制限に許容する従来の制限付きboメソッドや、保守的でゼロに近い違反で動作しようとする安全なboアルゴリズムとは異なり、予算制限違反は制約学習を改善し最適化を加速する。 産業用蒸気圧縮システムのエネルギー最小化のためのVABO法の有効性を実証する。

We study the problem of performance optimization of closed-loop control systems with unmodeled dynamics. Bayesian optimization (BO) has been demonstrated effective for improving closed-loop performance by automatically tuning controller gains or reference setpoints in a model-free manner. However, BO methods have rarely been tested on dynamical systems with unmodeled constraints. In this paper, we propose a violation-aware BO algorithm (VABO) that optimizes closed-loop performance while simultaneously learning constraint-feasible solutions. Unlike classical constrained BO methods which allow an unlimited constraint violations, or safe BO algorithms that are conservative and try to operate with near-zero violations, we allow budgeted constraint violations to improve constraint learning and accelerate optimization. We demonstrate the effectiveness of our proposed VABO method for energy minimization of industrial vapor compression systems.
翻訳日:2021-10-15 15:25:15 公開日:2021-10-14
# (参考訳) 音声毒性分析 : 新しい音声言語処理タスク [全文訳有]

Speech Toxicity Analysis: A New Spoken Language Processing Task ( http://arxiv.org/abs/2110.07592v1 )

ライセンス: CC BY 4.0
Sreyan Ghosh and Samden Lepcha and S Sakshi and Rajiv Ratn Shah(参考訳) ヘイトスピーチ(ヘイトスピーチ、ヘイトスピーチ、英: hate speech)は、今日のオンライン・ソーシャルメディアにおける重要な問題の一つ。 有毒な音声検出に関する最近の研究は、音声発話からの有毒な検出に関する既存の研究を伴わず、テキストのモダリティに制約されている。 本稿では,音声から有害性を検出する新しい音声言語処理タスクを提案する。 DeToxyは、200万以上の発話からなる各種公開音声データベースから得られた、英語音声のための、初めて公開された毒性アノテートデータセットである。 最後に, 有毒度を付与した音声コーパスが, 音声中の様々な韻律的手がかりをよりよく捉え, 音声の有毒度分類を促進するE2Eモデルの開発に有効であることを示す。

Toxic speech, also known as hate speech, is regarded as one of the crucial issues plaguing online social media today. Most recent work on toxic speech detection is constrained to the modality of text with no existing work on toxicity detection from spoken utterances. In this paper, we propose a new Spoken Language Processing task of detecting toxicity from spoken speech. We introduce DeToxy, the first publicly available toxicity annotated dataset for English speech, sourced from various openly available speech databases, consisting of over 2 million utterances. Finally, we also provide analysis on how a spoken speech corpus annotated for toxicity can help facilitate the development of E2E models which better capture various prosodic cues in speech, thereby boosting toxicity classification on spoken utterances.
翻訳日:2021-10-15 15:23:42 公開日:2021-10-14
# TDACNN:ガスセンサのドリフト補償のためのターゲットドメインフリードメイン適応畳み込みニューラルネットワーク

TDACNN: Target-domain-free Domain Adaptation Convolutional Neural Network for Drift Compensation in Gas Sensors ( http://arxiv.org/abs/2110.07509v1 )

ライセンス: Link先を確認
Yuelin Zhang, Jia Yan, Zehuan Wanga, Xiaoyan Peng, Yutong Tian, Shukai Duan(参考訳) センサドリフト(Sensor drift)は、ガス状物質認識の性能を悪化させる予測不可能な問題であり、アンチドリフト領域適応アルゴリズムを求めている。 しかし、優れた結果を得るための従来の手法の前提条件は、ドメインアライメントのための非ドリフト分布(ソースドメイン)とドリフト分布(ターゲットドメイン)の両方からのデータを得ることである。 そこで本稿では,ターゲット領域非適応型畳み込みニューラルネットワーク(tdacnn)を用いたディープラーニングを提案する。 主な概念は、cnnがサンプルのドメイン固有の特徴だけでなく、ソースドメインとターゲットドメインの両方の基礎となるドメイン不変特徴を抽出することである。 これら様々なレベルの埋め込み特徴をフル活用することにより、異なるレベルの特性を包括的に活用し、2つの領域間の抽出した中間特徴によるドリフト補償を実現することができる。 TDACNNでは,マルチクラス化構造を持つフレキシブルなマルチブランチバックボーンがバイオニクスの指導のもと提案されている。 疑似ラベルの信頼性に基づいて, 最大平均差分率(MMD)に基づく分類器アンサンブル法を提案し, 全分類器を共同評価する。 ネットワークトレーニングを最適化するために,パラメータ動的調整による付加的な角縁ソフトマックス損失を利用する。 異なる設定下での2つのドリフトデータセットの実験は、いくつかの最先端手法と比較してTDACNNの優位性を示している。

Sensor drift is a long-existing unpredictable problem that deteriorates the performance of gaseous substance recognition, calling for an antidrift domain adaptation algorithm. However, the prerequisite for traditional methods to achieve fine results is to have data from both nondrift distributions (source domain) and drift distributions (target domain) for domain alignment, which is usually unrealistic and unachievable in real-life scenarios. To compensate for this, in this paper, deep learning based on a target-domain-free domain adaptation convolutional neural network (TDACNN) is proposed. The main concept is that CNNs extract not only the domain-specific features of samples but also the domain-invariant features underlying both the source and target domains. Making full use of these various levels of embedding features can lead to comprehensive utilization of different levels of characteristics, thus achieving drift compensation by the extracted intermediate features between two domains. In the TDACNN, a flexible multibranch backbone with a multiclassifier structure is proposed under the guidance of bionics, which utilizes multiple embedding features comprehensively without involving target domain data during training. A classifier ensemble method based on maximum mean discrepancy (MMD) is proposed to evaluate all the classifiers jointly based on the credibility of the pseudolabel. To optimize network training, an additive angular margin softmax loss with parameter dynamic adjustment is utilized. Experiments on two drift datasets under different settings demonstrate the superiority of TDACNN compared with several state-of-the-art methods.
翻訳日:2021-10-15 15:13:11 公開日:2021-10-14
# 量子アニーリングを用いたミラーリングダブルラウンドロビントーナメントにおける大破れ最小化問題の解法

Solving Large Break Minimization Problems in a Mirrored Double Round-robin Tournament Using Quantum Annealing ( http://arxiv.org/abs/2110.07239v1 )

ライセンス: Link先を確認
Michiya Kuramata, Ryota Katsuki, Kazuhide Nakata(参考訳) 量子アニール(QA)は、物流、スケジューリング、ファイナンスに多くの応用がある組合せ最適化問題に適用できるため、注目されている。 近年,それらを用いた組合せ最適化問題を解く研究が加速されている。 しかし、研究者たちは実用的な組合せ最適化問題を見つけるのに苦労しており、量子アニーラーは他の数学的最適化解法よりも優れている。 さらに、量子アニーラーの性能を、gurobiやcplexのような最も洗練された数学的最適化解法の一つと比較する研究はごくわずかである。 そこで本研究では,ミラーリングラウンドロビントーナメント(MDRRT)におけるブレーク最小化問題において,QAが解法よりも優れた性能を示した。 また,変数間の疎相互作用と制約のない問題に対するQAの望ましい性能についても説明する。 本稿では,MDRRTにおけるブレーク最小化問題を4正規グラフとして表現できることを実証する。 計算実験により,最新の量子アニーラーD-WaveAdvantageと高度な数学的最適化解法であるGurobiを用いて,QA法と2整数プログラミング法を用いてこの問題を解く。 さらに,解の質と計算時間を比較する。 QAは20チームでの問題に対して0.05秒で正確なソリューションを決定できた。 36チームの場合、整数プログラミング法が目的関数値に達するのに84.8秒かかり、これは0.05秒の量子アニールによって得られた。 これらの結果は, MDRRTにおけるブレーク最小化問題を, 実用的な最適化問題にQAを適用した例として提示するだけでなく, QAによって効果的に解ける問題を見つけるためにも貢献する。

Quantum annealing (QA) has gained considerable attention because it can be applied to combinatorial optimization problems, which have numerous applications in logistics, scheduling, and finance. In recent years, research on solving practical combinatorial optimization problems using them has accelerated. However, researchers struggle to find practical combinatorial optimization problems, for which quantum annealers outperform other mathematical optimization solvers. Moreover, there are only a few studies that compare the performance of quantum annealers with one of the most sophisticated mathematical optimization solvers, such as Gurobi and CPLEX. In our study, we determine that QA demonstrates better performance than the solvers in the break minimization problem in a mirrored double round-robin tournament (MDRRT). We also explain the desirable performance of QA for the sparse interaction between variables and a problem without constraints. In this process, we demonstrate that the break minimization problem in an MDRRT can be expressed as a 4-regular graph. Through computational experiments, we solve this problem using our QA approach and two-integer programming approaches, which were performed using the latest quantum annealer D-Wave Advantage, and the sophisticated mathematical optimization solver, Gurobi, respectively. Further, we compare the quality of the solutions and the computational time. QA was able to determine the exact solution in 0.05 seconds for problems with 20 teams, which is a practical size. In the case of 36 teams, it took 84.8 s for the integer programming method to reach the objective function value, which was obtained by the quantum annealer in 0.05 s. These results not only present the break minimization problem in an MDRRT as an example of applying QA to practical optimization problems, but also contribute to find problems that can be effectively solved by QA.
翻訳日:2021-10-15 15:12:09 公開日:2021-10-14
# モンテカルロ核融合

Divide-and-Conquer Monte Carlo Fusion ( http://arxiv.org/abs/2110.07265v1 )

ライセンス: Link先を確認
Ryan S.Y. Chan, Murray Pollock, Adam M. Johansen and Gareth O. Roberts(参考訳) いくつかの(サンプル近似の)分布を積に比例した単一分布に組み合わせることは、よくある問題である。 例えば、分散‘ビッグデータ’問題や、マルチパーティのプライバシ制約下での作業などです。 既存の多くのアプローチでは、実際の必要のために個々の後肢を近似し、その結果の近似後肢を表す。 これらのアプローチに対する後部近似の質は、サブポインターが分布の狭い範囲で脱落した場合に劣る。 近年では、後部(後部)の直接的かつ正確なモンテカルロ近似が提案されており、近似アプローチの欠点を回避している。 残念なことに、既存のFusionアプローチには、特に多数のサブポインターを統一する場合に、多くの計算制限がある。 本稿では,既存の融合アプローチを基盤とする理論を一般化し,帰納的分割・包括的モンテカルロパラダイムにその方法論を組み込む。 これは最終的に、競争力のあるフュージョンアプローチにつながり、サブポストの数が増加するのに堅牢である。

Combining several (sample approximations of) distributions, which we term sub-posteriors, into a single distribution proportional to their product, is a common challenge. For instance, in distributed `big data' problems, or when working under multi-party privacy constraints. Many existing approaches resort to approximating the individual sub-posteriors for practical necessity, then representing the resulting approximate posterior. The quality of the posterior approximation for these approaches is poor when the sub-posteriors fall out-with a narrow range of distributional form. Recently, a Fusion approach has been proposed which finds a direct and exact Monte Carlo approximation of the posterior (as opposed to the sub-posteriors), circumventing the drawbacks of approximate approaches. Unfortunately, existing Fusion approaches have a number of computational limitations, particularly when unifying a large number of sub-posteriors. In this paper, we generalise the theory underpinning existing Fusion approaches, and embed the resulting methodology within a recursive divide-and-conquer sequential Monte Carlo paradigm. This ultimately leads to a competitive Fusion approach, which is robust to increasing numbers of sub-posteriors.
翻訳日:2021-10-15 15:11:26 公開日:2021-10-14
# 立方体正規化勾配降下法による非凸ミニマックス最適化におけるサドル点の脱出

Escaping Saddle Points in Nonconvex Minimax Optimization via Cubic-Regularized Gradient Descent-Ascent ( http://arxiv.org/abs/2110.07098v1 )

ライセンス: Link先を確認
Ziyi Chen, Yi Zhou(参考訳) 勾配降下度(GDA)アルゴリズムは非凸極小最適化問題に広く応用されている。 しかし、既存のGDA型アルゴリズムでは、非凸極小最適化問題のエンベロープ関数の1次定常点しか見つからないため、準最適サドル点で立ち往生する可能性を排除できない。 本稿では,非凸強凸ミニマックス最適化において,厳密な鞍点から逃れる最初のgda型アルゴリズムであるcubic-gdaを開発した。 特に、このアルゴリズムは勾配上昇を用いてミニマックス目的関数の2次情報を推定し、立方体正規化技術を利用して厳密な鞍点を効率的に回避する。 目的関数の標準滑らか性仮定の下では、立方体-GDA はミニマックス最適化過程において単調に値が減少する固有ポテンシャル関数を許容することを示す。 そのような性質は、cubic-gdaの所望のグローバル収束をサブリニアレートの2次定常点へと導く。 さらに,勾配支配型非凸幾何学の全スペクトルにおける立方体gdaの収束速度を解析した。 以上の結果から,立方体-GDAは勾配支配幾何学の幅広いスペクトルに対して標準GDAよりも次々に高速な収束速度が得られることが示された。 本研究は,2次最適化によるミニマックス最適化を橋渡しし,この方向に新たな展開をもたらす可能性がある。

The gradient descent-ascent (GDA) algorithm has been widely applied to solve nonconvex minimax optimization problems. However, the existing GDA-type algorithms can only find first-order stationary points of the envelope function of nonconvex minimax optimization problems, which does not rule out the possibility to get stuck at suboptimal saddle points. In this paper, we develop Cubic-GDA -- the first GDA-type algorithm for escaping strict saddle points in nonconvex-strongly-c oncave minimax optimization. Specifically, the algorithm uses gradient ascent to estimate the second-order information of the minimax objective function, and it leverages the cubic regularization technique to efficiently escape the strict saddle points. Under standard smoothness assumptions on the objective function, we show that Cubic-GDA admits an intrinsic potential function whose value monotonically decreases in the minimax optimization process. Such a property leads to a desired global convergence of Cubic-GDA to a second-order stationary point at a sublinear rate. Moreover, we analyze the convergence rate of Cubic-GDA in the full spectrum of a gradient dominant-type nonconvex geometry. Our result shows that Cubic-GDA achieves an orderwise faster convergence rate than the standard GDA for a wide spectrum of gradient dominant geometry. Our study bridges minimax optimization with second-order optimization and may inspire new developments along this direction.
翻訳日:2021-10-15 15:09:12 公開日:2021-10-14
# 解離型因果コラボレーティブフィルタ

Deconfounded Causal Collaborative Filtering ( http://arxiv.org/abs/2110.07122v1 )

ライセンス: Link先を確認
Shuyuan Xu and Juntao Tan and Shelby Heinecke and Jia Li and Yongfeng Zhang(参考訳) レコメンデーションシステムは、不正確なレコメンデーションや推奨パフォーマンスを犠牲にする様々な種類の共起要因(共同設立者とも呼ばれる)によって構築される。 問題を解決する現在のアプローチは、通常、特定の共同設立者ごとにそれぞれの特定のモデルを設計する。 しかし、現実世界のシステムには膨大な数の共同設立者が含まれており、特定の共同設立者ごとにそれぞれのモデルを設計することは現実的ではない。 さらに重要なことは、研究者が手動で項目の位置を特定・処理できる「専門的共同設立者」を除いて、研究者の想像以上に多くの「後期共同設立者」が存在することである。 例えば、曲に対するユーザーの評価は現在の気分や現在の天気に依存し、アイスクリームに対するユーザーの好みは気温に依存する可能性がある。 このような潜在共同設立者は、記録されたトレーニングデータでは観察できない可能性がある。 この問題を解決するために, 分離因果協調フィルタリングモデルを提案する。 まず、保存されていない共同設立者によるユーザー行動から因果グラフを作り、その後、機械学習と融合した正面調整モデルを慎重に設計し、保守されていない共同設立者の影響を軽視した。 提案されたモデルは、グローバル共同ファウンダーとパーソナライズされた共同ファウンダーの両方を扱える。 実世界のeコマースデータセットの実験により、我々の手法は、観測されていない共同ファウンダーを非難し、より良いレコメンデーションパフォーマンスを達成することができることを示した。

Recommender systems may be confounded by various types of confounding factors (also called confounders) that may lead to inaccurate recommendations and sacrificed recommendation performance. Current approaches to solving the problem usually design each specific model for each specific confounder. However, real-world systems may include a huge number of confounders and thus designing each specific model for each specific confounder is unrealistic. More importantly, except for those "explicit confounders" that researchers can manually identify and process such as item's position in the ranking list, there are also many "latent confounders" that are beyond the imagination of researchers. For example, users' rating on a song may depend on their current mood or the current weather, and users' preference on ice creams may depend on the air temperature. Such latent confounders may be unobservable in the recorded training data. To solve the problem, we propose a deconfounded causal collaborative filtering model. We first frame user behaviors with unobserved confounders into a causal graph, and then we design a front-door adjustment model carefully fused with machine learning to deconfound the influence of unobserved confounders. The proposed model is able to handle both global confounders and personalized confounders. Experiments on real-world e-commerce datasets show that our method is able to deconfound unobserved confounders to achieve better recommendation performance.
翻訳日:2021-10-15 15:08:49 公開日:2021-10-14
# DI-AA:ディープニューラルネットワークの解釈可能なホワイトボックス攻撃

DI-AA: An Interpretable White-box Attack for Fooling Deep Neural Networks ( http://arxiv.org/abs/2110.07305v1 )

ライセンス: Link先を確認
Yixiang Wang, Jiqiang Liu, Xiaolin Chang, Jianhua Wang, Ricardo J. Rodr\'iguez(参考訳) ディープニューラルネットワーク(DNN)に対するAE攻撃は、AE戦略の分野におけるブラックボックスAE攻撃よりも強力な破壊能力を持つ。 しかし、ほとんどのホワイトボックスアプローチはDNNの観点からの解釈を欠いている。 つまり、敵は解釈可能な特徴の観点から攻撃を調査しておらず、これらのアプローチのいくつかはDNNが実際に学習する機能について考慮していない。 本稿では,最も寄与する特徴の選択におけるディープテイラー分解の解釈可能なアプローチの適用を探求し,ロジット出力とl_pノルムのラグランジュ緩和最適化を適用し,さらに摂動を減少させる,解釈可能なホワイトボックスae攻撃手法であるdi-aaを提案する。 DI-AAと6つのベースライン攻撃(最先端のAutoAttackを含む)を3つのデータセットで比較する。 実験結果から 提案手法が 1)比較的低摂動率の非ロバストモデルに対して,摂動がオートアタックアプローチに近かったり低かったりする。 2) 最も成功率の高い取引相手の訓練モデルを破る。 3) 生成したaeは, ブラックボックス転送攻撃においてロバストなブラックボックスモデルのロバスト精度を16%から31%削減できる。

White-box Adversarial Example (AE) attacks towards Deep Neural Networks (DNNs) have a more powerful destructive capacity than black-box AE attacks in the fields of AE strategies. However, almost all the white-box approaches lack interpretation from the point of view of DNNs. That is, adversaries did not investigate the attacks from the perspective of interpretable features, and few of these approaches considered what features the DNN actually learns. In this paper, we propose an interpretable white-box AE attack approach, DI-AA, which explores the application of the interpretable approach of the deep Taylor decomposition in the selection of the most contributing features and adopts the Lagrangian relaxation optimization of the logit output and L_p norm to further decrease the perturbation. We compare DI-AA with six baseline attacks (including the state-of-the-art attack AutoAttack) on three datasets. Experimental results reveal that our proposed approach can 1) attack non-robust models with comparatively low perturbation, where the perturbation is closer to or lower than the AutoAttack approach; 2) break the TRADES adversarial training models with the highest success rate; 3) the generated AE can reduce the robust accuracy of the robust black-box models by 16% to 31% in the black-box transfer attack.
翻訳日:2021-10-15 15:08:23 公開日:2021-10-14
# ReGVD:脆弱性検出のためのグラフニューラルネットワークの再検討

ReGVD: Revisiting Graph Neural Networks for Vulnerability Detection ( http://arxiv.org/abs/2110.07317v1 )

ライセンス: Link先を確認
Van-Anh Nguyen and Dai Quoc Nguyen and Van Nguyen and Trung Le and Quan Hung Tran and Dinh Phung(参考訳) ソースコードの脆弱性を特定することは、ソフトウェアシステムをサイバーセキュリティ攻撃から守るために不可欠である。 しかし、セキュリティとコード表現の専門知識を必要とする困難なステップでもある。 CodeBERTやグラフニューラルネットワーク(GNN)といった事前学習型プログラミング言語(PL)モデルの成功に触発されて,脆弱性検出のための汎用的で斬新なグラフニューラルネットワークモデルであるReGVDを提案する。 特にReGVDは、与えられたソースコードをフラットなトークンのシーケンスとみなし、それぞれユニークなトークンとインデックスを利用する2つの効果的な方法を調べて、単一グラフを入力として構築し、ノードの特徴は事前訓練されたPLモデルの埋め込み層によってのみ初期化される。 次に、ReGVDはGNN層間の残差接続の実用的利点を活用し、与えられたソースコードにグラフ埋め込みを返すためにグラフレベルの和と最大プーリングの有用な混合を探索する。 実験により、ReGVDは既存の最先端モデルよりも優れており、脆弱性検出のためのCodeXGLUEから実世界のベンチマークデータセット上で最高の精度が得られることが示された。

Identifying vulnerabilities in the source code is essential to protect the software systems from cyber security attacks. It, however, is also a challenging step that requires specialized expertise in security and code representation. Inspired by the successful applications of pre-trained programming language (PL) models such as CodeBERT and graph neural networks (GNNs), we propose ReGVD, a general and novel graph neural network-based model for vulnerability detection. In particular, ReGVD views a given source code as a flat sequence of tokens and then examines two effective methods of utilizing unique tokens and indexes respectively to construct a single graph as an input, wherein node features are initialized only by the embedding layer of a pre-trained PL model. Next, ReGVD leverages a practical advantage of residual connection among GNN layers and explores a beneficial mixture of graph-level sum and max poolings to return a graph embedding for the given source code. Experimental results demonstrate that ReGVD outperforms the existing state-of-the-art models and obtain the highest accuracy on the real-world benchmark dataset from CodeXGLUE for vulnerability detection.
翻訳日:2021-10-15 15:08:04 公開日:2021-10-14
# 分子間グラフ変換器による薬物・標的相互作用予測の改善

Improved Drug-target Interaction Prediction with Intermolecular Graph Transformer ( http://arxiv.org/abs/2110.07347v1 )

ライセンス: Link先を確認
Siyuan Liu, Yusong Wang, Tong Wang, Yifan Deng, Liang He, Bin Shao, Jian Yin, Nanning Zheng, Tie-Yan Liu(参考訳) 標的タンパク質に対する活性結合薬の同定(薬物-標的相互作用予測)は、仮想スクリーニングにおいて重要な課題であり、薬物発見において重要な役割を果たす。 近年のディープラーニングに基づくアプローチは分子ドッキングよりも優れた性能を達成しているが、既存のモデルは分子間情報の特定の側面を無視し、予測性能を妨げていることが多い。 我々はこの問題を認識し,三方向トランスフォーマーアーキテクチャを用いて分子間情報をモデル化するための専用アテンション機構を用いたIntermolecular Graph Transformer (IGT) という新しいアプローチを提案する。 IGTは、それぞれ結合活性と結合ポーズ予測において第2のベストを9.1%、第20.5%で上回り、受容体タンパク質の発見に優れた一般化能力を示す。 さらにigtは、ほぼネイティブな結合状態が予測されたウェットラブ実験によって検証された83.1%の活性薬物を同定することにより、sars-cov-2に対する有望な薬剤スクリーニング能力を示す。

The identification of active binding drugs for target proteins (termed as drug-target interaction prediction) is the key challenge in virtual screening, which plays an essential role in drug discovery. Although recent deep learning-based approaches achieved better performance than molecular docking, existing models often neglect certain aspects of the intermolecular information, hindering the performance of prediction. We recognize this problem and propose a novel approach named Intermolecular Graph Transformer (IGT) that employs a dedicated attention mechanism to model intermolecular information with a three-way Transformer-based architecture. IGT outperforms state-of-the-art approaches by 9.1% and 20.5% over the second best for binding activity and binding pose prediction respectively, and shows superior generalization ability to unseen receptor proteins. Furthermore, IGT exhibits promising drug screening ability against SARS-CoV-2 by identifying 83.1% active drugs that have been validated by wet-lab experiments with near-native predicted binding poses.
翻訳日:2021-10-15 15:07:43 公開日:2021-10-14
# deeporder: 継続的インテグレーションテストにおけるテストケース優先度付けのためのディープラーニング

DeepOrder: Deep Learning for Test Case Prioritization in Continuous Integration Testing ( http://arxiv.org/abs/2110.07443v1 )

ライセンス: Link先を確認
Aizaz Sharif, Dusica Marijan, Marius Liaaen(参考訳) 継続的インテグレーションテストは、現代のソフトウェアエンジニアリングライフサイクルにおいて重要なステップです。 テスト優先化は、各サイクルの初期段階で障害を検出するテストケースを選択することで、継続的インテグレーションテストの効率を改善する方法である。 継続的インテグレーションテストがvoluminousテスト実行データを生成するため、テスト履歴はテスト優先度付けで一般的に使用されるアーティファクトである。 しかし、継続的インテグレーションのための既存のテスト優先順位付け技術は、大きなテスト履歴を処理できないか、あるいは、限られた履歴テストサイクルを使用するように最適化されている。 このような制限は、優先順位付けテストスイートの故障検出効率を低下させる可能性があることを示す。 この研究は、回帰機械学習に基づいて動作するディープラーニングベースのモデルであるDeepOrderを紹介している。 deeporderは、過去のテストサイクルのあらゆるテスト実行の履歴に基づいて、テストケースをランク付けする。 DeepOrderは、テストケースの持続時間と実行状況を含む複数の要因に基づいて、失敗したテストケースを学習する。 実験により, 深部ニューラルネットワークは, 単純な回帰モデルとして, 連続的な統合テストにおいて, テストケースの優先順位付けに効率的に利用できることを示した。 deeporderは、業界の実践と技術アプローチの状況と比較して、時間効率とフォールト検出効率について評価される。 その結果、DeepOrderはこれらの2つの指標の観点から、業界プラクティスと最先端のテスト優先順位付けアプローチより優れています。

Continuous integration testing is an important step in the modern software engineering life cycle. Test prioritization is a method that can improve the efficiency of continuous integration testing by selecting test cases that can detect faults in the early stage of each cycle. As continuous integration testing produces voluminous test execution data, test history is a commonly used artifact in test prioritization. However, existing test prioritization techniques for continuous integration either cannot handle large test history or are optimized for using a limited number of historical test cycles. We show that such a limitation can decrease fault detection effectiveness of prioritized test suites. This work introduces DeepOrder, a deep learning-based model that works on the basis of regression machine learning. DeepOrder ranks test cases based on the historical record of test executions from any number of previous test cycles. DeepOrder learns failed test cases based on multiple factors including the duration and execution status of test cases. We experimentally show that deep neural networks, as a simple regression model, can be efficiently used for test case prioritization in continuous integration testing. DeepOrder is evaluated with respect to time-effectiveness and fault detection effectiveness in comparison with an industry practice and the state of the art approaches. The results show that DeepOrder outperforms the industry practice and state-of-the-art test prioritization approaches in terms of these two metrics.
翻訳日:2021-10-15 15:06:19 公開日:2021-10-14
# PHMアルゴリズムの逆脆弱性について:最初の研究

On Adversarial Vulnerability of PHM algorithms: An Initial Study ( http://arxiv.org/abs/2110.07462v1 )

ライセンス: Link先を確認
Weizhong Yan, Zhaoyuan Yang, Jianwei Qiu(参考訳) 多様なドメインにおけるディープラーニング(DL)アプリケーションの普及に伴い、コンピュータビジョン(CV)と自然言語処理(NLP)の分野において、DLモデルの敵攻撃に対する脆弱性がますます興味深い研究トピックになりつつある。 DLはさまざまなPHMアプリケーションにも広く採用されており、データは主に時系列センサーの測定である。 これらの先進的なDLアルゴリズム/モデルによりPHMアルゴリズムの性能は向上したが、敵攻撃に対するPHMアルゴリズムの脆弱性はPHMコミュニティではあまり注目されていない。 本稿では,PHMアルゴリズムの脆弱性について検討する。 より具体的には,時系列センサ計測データに関連する特徴をいくつか考慮し,phmアルゴリズムに対する攻撃戦略を検討する。 実世界の2つのPHMアプリケーションを用いて、攻撃戦略を検証するとともに、PHMアルゴリズムが実際に敵攻撃に対して脆弱であることを示す。

With proliferation of deep learning (DL) applications in diverse domains, vulnerability of DL models to adversarial attacks has become an increasingly interesting research topic in the domains of Computer Vision (CV) and Natural Language Processing (NLP). DL has also been widely adopted to diverse PHM applications, where data are primarily time-series sensor measurements. While those advanced DL algorithms/models have resulted in an improved PHM algorithms' performance, the vulnerability of those PHM algorithms to adversarial attacks has not drawn much attention in the PHM community. In this paper we attempt to explore the vulnerability of PHM algorithms. More specifically, we investigate the strategies of attacking PHM algorithms by considering several unique characteristics associated with time-series sensor measurements data. We use two real-world PHM applications as examples to validate our attack strategies and to demonstrate that PHM algorithms indeed are vulnerable to adversarial attacks.
翻訳日:2021-10-15 15:06:00 公開日:2021-10-14
# パワーアロケーション用展開WMMSEの安定性解析

Stability Analysis of Unfolded WMMSE for Power Allocation ( http://arxiv.org/abs/2110.07471v1 )

ライセンス: Link先を確認
Arindam Chowdhury, Fernando Gama, and Santiago Segarra(参考訳) 電力割り当ては無線ネットワークにおける基本的な問題の1つであり、様々なアルゴリズムが異なる観点からこの問題に対処している。 これらのアルゴリズムの一般的な要素は、ハードウェアの欠陥、ノイズの多いフィードバックシステム、環境と逆の障害などを考慮して不正確なチャネル状態の推定に依存することである。 したがって、これらのアルゴリズムの出力パワー割り当ては、入力の摂動に関して安定であり、出力の変動が入力の有界変動に対して境界づけられている程度である。 本稿では,グラフニューラルネットワークを活用した現代的アルゴリズムであるuwmmseに着目し,理論解析と経験的検証の両方を通じて,境界エネルギーの入力摂動にその安定性を示す。

Power allocation is one of the fundamental problems in wireless networks and a wide variety of algorithms address this problem from different perspectives. A common element among these algorithms is that they rely on an estimation of the channel state, which may be inaccurate on account of hardware defects, noisy feedback systems, and environmental and adversarial disturbances. Therefore, it is essential that the output power allocation of these algorithms is stable with respect to input perturbations, to the extent that the variations in the output are bounded for bounded variations in the input. In this paper, we focus on UWMMSE -- a modern algorithm leveraging graph neural networks --, and illustrate its stability to additive input perturbations of bounded energy through both theoretical analysis and empirical validation.
翻訳日:2021-10-15 15:05:46 公開日:2021-10-14
# (参考訳) P-Tuning v2: Prompt Tuningは、スケールやタスク全体にわたって微調整できる [全文訳有]

P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks ( http://arxiv.org/abs/2110.07602v1 )

ライセンス: CC BY 4.0
Xiao Liu, Kaixuan Ji, Yicheng Fu, Zhengxiao Du, Zhilin Yang, Jie Tang(参考訳) 言語モデルで連続的なプロンプトのみをチューニングするプロンプトチューニングは、トレーニング時のタスク単位のストレージとメモリ使用量を大幅に削減する。 しかし,NLUの文脈では,従来のプロンプトチューニング手法は,正規サイズの事前学習モデルやハードシーケンスタスクではうまく機能せず,普遍性の欠如が示唆されている。 本稿では,最適化されたプロンプトチューニングが,0.1\%-3\%のパラメータしか持たず,微調整性能に適合する幅広いモデルスケールとnluタスクにおいて普遍的に有効であることを示す。 P-Tuning v2 は新しい手法ではなく,NLU に最適化されたプレフィックスチューニング \cite{li2021prefix} のバージョンである。 P-Tuning v2の普遍性と単純性を考えると、これはファインチューニングの代替となり、将来の研究の強力なベースラインとなると信じている。

Prompt tuning, which only tunes continuous prompts with a frozen language model, substantially reduces per-task storage and memory usage at training. However, in the context of NLU, prior work and our results reveal that existing methods of prompt tuning do not perform well for normal-sized pre-trained models and for hard sequence tasks, indicating lack of universality. We present a novel empirical finding that properly-optimized prompt tuning can be universally effective across a wide range of model scales and NLU tasks, where it matches the performance of fine-tuning while having only 0.1\%-3\% tuned parameters. Our method P-Tuning v2 is not a new method but a version of prefix-tuning \cite{li2021prefix} optimized and adapted for NLU. Given the universality and simplicity of P-Tuning v2, we believe it can serve as an alternative for fine-tuning and a strong baseline for future research.
翻訳日:2021-10-15 15:02:51 公開日:2021-10-14
# ブラックボックスモデルのキャリブレーションに説明は有用か?

Can Explanations Be Useful for Calibrating Black Box Models? ( http://arxiv.org/abs/2110.07586v1 )

ライセンス: Link先を確認
Xi Ye and Greg Durrett(参考訳) 既存のトレーニング済みのNLPモデルを新しいドメインのデータに使用したい場合が多い。 微調整や少数ショット学習はベースモデルへの適応に使用できるが、これらを実現するための簡単なレシピは存在せず、ブラックボックスとしてデプロイされた場合、元のモデルの重み付けにアクセスできない場合もある。 そこで本研究では,ブラックボックスモデルの振る舞いの説明を活用し,新しいドメインの例を例にあげて,ブラックボックスモデルの性能を改善する方法について検討する。 提案手法は,まず,ブラックボックス解釈手法によって生成されたモデル帰属とタスクに対する人間の直観を結合した特徴を抽出し,その特徴に基づいてモデルの予測を校正し,再ランク付けする。 質問応答抽出と自然言語推論という2つのタスクで提案手法を実験し,複数のドメインから適応した。 すべてのドメインペアでの実験結果は、説明がこれらのモデルのキャリブレーションに有用であることを示している。 その結果,キャリブレーション機能はタスク間である程度移動し,その有効利用方法に光を当てることができた。

One often wants to take an existing, trained NLP model and use it on data from a new domain. While fine-tuning or few-shot learning can be used to adapt the base model, there is no one simple recipe to getting these working; moreover, one may not have access to the original model weights if it is deployed as a black box. To this end, we study how to improve a black box model's performance on a new domain given examples from the new domain by leveraging explanations of the model's behavior. Our approach first extracts a set of features combining human intuition about the task with model attributions generated by black box interpretation techniques, and then uses a simple model to calibrate or rerank the model's predictions based on the features. We experiment with our method on two tasks, extractive question answering and natural language inference, covering adaptation from several pairs of domains. The experimental results across all the domain pairs show that explanations are useful for calibrating these models. We show that the calibration features transfer to some extent between tasks and shed light on how to effectively use them.
翻訳日:2021-10-15 14:50:53 公開日:2021-10-14
# ビデオによる牛の識別と行動認識

Video-based cattle identification and action recognition ( http://arxiv.org/abs/2110.07103v1 )

ライセンス: Link先を確認
Chuong Nguyen, Dadong Wang, Karl Von Richter, Philip Valencia, Flavio A. P. Alvarenga, Gregory Bishop-Hurley(参考訳) 家畜の行動を自動的に分析し,牛の福祉をモニタリングする作業プロトタイプを実演する。 ディープラーニングモデルの開発とテストは、農場で取得したビデオを用いて行われ、牛の識別には81.2\%の精度が達成されている。 飲酒イベントの検出には84.4\%、放牧イベントの検出には94.4\%の精度が達成されている。 実験の結果,提案手法により個体の行動の識別が可能となり,農作物の自動生産が可能となった。 当社のrawデータセットとground-truthデータセットは、牛の識別と行動認識のための最初の公開ビデオデータセットとしてリリースされる予定です。 さらなる発展のための勧告も提供される。

We demonstrate a working prototype for the monitoring of cow welfare by automatically analysing the animal behaviours. Deep learning models have been developed and tested with videos acquired in a farm, and a precision of 81.2\% has been achieved for cow identification. An accuracy of 84.4\% has been achieved for the detection of drinking events, and 94.4\% for the detection of grazing events. Experimental results show that the proposed deep learning method can be used to identify the behaviours of individual animals to enable automated farm provenance. Our raw and ground-truth dataset will be released as the first public video dataset for cow identification and action recognition. Recommendations for further development are also provided.
翻訳日:2021-10-15 14:50:16 公開日:2021-10-14
# ピクセル対プロトタイプコントラストによる弱教師付き意味セグメンテーション

Weakly Supervised Semantic Segmentation by Pixel-to-Prototype Contrast ( http://arxiv.org/abs/2110.07110v1 )

ライセンス: Link先を確認
Ye Du, Zehua Fu, Qingjie Liu, Yunhong Wang(参考訳) 画像レベルの弱い教師付きセマンティックセグメンテーション(WSSS)は、クラスアクティベーションマップ(CAM)を基盤として大きな進歩を遂げてきたが、分類とセグメンテーションの間の大きな監視ギャップは、セグメンテーションのためのより完全で正確な擬似マスクを生成するためにモデルを妨げている。 本研究では,2つの暗黙的かつ直感的な制約,すなわち,横断的特徴のセマンティック一貫性と,(インター)クラス内コンパクト性(分散)を探索し,監督ギャップを狭める。 そこで本研究では,画像の異なるビューと1つのビューでそれぞれ異なるビューで実施する2つの新しいピクセル対プロトタイプコントラスト正規化項を提案する。 さらに, 半ハードプロトタイプマイニングとハードピクセルサンプリングという2つのサンプルマイニング戦略を採用し, 正確な画素ラベルの欠如によるコントラストの誤りを低減しつつ, ハードサンプルの活用を改善した。 提案手法は, ベースネットワークの変更なしに既存のWSSSモデルにシームレスに組み込むことができ, 余分な推論負担を生じさせない。 標準ベンチマーク実験により,提案手法は高いマージンで2つの強いベースラインを一貫して改善し,本手法の有効性を示す。 具体的には、SEAM上に構築されたPASCAL VOC 2012の初期シードmIoUを55.4%から61.5%に改善する。 さらに,EPSのセグメンテーションmIoUを70.8%から73.6%に増やし,新たな最先端技術を実現した。

Though image-level weakly supervised semantic segmentation (WSSS) has achieved great progress with Class Activation Map (CAM) as the cornerstone, the large supervision gap between classification and segmentation still hampers the model to generate more complete and precise pseudo masks for segmentation. In this study, we explore two implicit but intuitive constraints, i.e., cross-view feature semantic consistency and intra(inter)-class compactness(dispersi on), to narrow the supervision gap. To this end, we propose two novel pixel-to-prototype contrast regularization terms that are conducted cross different views and within per single view of an image, respectively. Besides, we adopt two sample mining strategies, named semi-hard prototype mining and hard pixel sampling, to better leverage hard examples while reducing incorrect contrasts caused due to the absence of precise pixel-wise labels. Our method can be seamlessly incorporated into existing WSSS models without any changes to the base network and does not incur any extra inference burden. Experiments on standard benchmark show that our method consistently improves two strong baselines by large margins, demonstrating the effectiveness of our method. Specifically, built on top of SEAM, we improve the initial seed mIoU on PASCAL VOC 2012 from 55.4% to 61.5%. Moreover, armed with our method, we increase the segmentation mIoU of EPS from 70.8% to 73.6%, achieving new state-of-the-art.
翻訳日:2021-10-15 14:50:05 公開日:2021-10-14
# Nuisance-Label Supervision:自由ラベルによるロバスト性向上

Nuisance-Label Supervision: Robustness Improvement by Free Labels ( http://arxiv.org/abs/2110.07118v1 )

ライセンス: Link先を確認
Xinyue Wei, Weichao Qiu, Yi Zhang, Zihao Xiao, Alan Yuille(参考訳) 本稿では,Nuisance-label Supervision(NLS)モジュールを提案する。 ニュアンス因子はタスクに無関係な要素であり、理想的なモデルはそれらに不変であるべきである。 例えば、アクティビティ認識モデルは、服や背景の変化に関係なく一貫して実行されるべきです。 しかし、実験によると、既存のモデルはこの能力に遠く及ばない。 そこで,抽出した特徴がニュアンス因子に依存しないように,ニュアンスラベル付きモデルを明示的に監督する。 ニュアンス因子の値はアノテートされることはほとんどないが,既存のアノテーション以外に,データ拡張や合成データからニュアンスラベルを自由に取得できることが実証されている。 実験では,行動認識における画像破壊と外観変化に対するロバスト性が一貫した改善を示す。

In this paper, we present a Nuisance-label Supervision (NLS) module, which can make models more robust to nuisance factor variations. Nuisance factors are those irrelevant to a task, and an ideal model should be invariant to them. For example, an activity recognition model should perform consistently regardless of the change of clothes and background. But our experiments show existing models are far from this capability. So we explicitly supervise a model with nuisance labels to make extracted features less dependent on nuisance factors. Although the values of nuisance factors are rarely annotated, we demonstrate that besides existing annotations, nuisance labels can be acquired freely from data augmentation and synthetic data. Experiments show consistent improvement in robustness towards image corruption and appearance change in action recognition.
翻訳日:2021-10-15 14:49:32 公開日:2021-10-14
# 意味と深さのための半教師付きマルチタスク学習

Semi-supervised Multi-task Learning for Semantics and Depth ( http://arxiv.org/abs/2110.07197v1 )

ライセンス: Link先を確認
Yufeng Wang, Yi-Hsuan Tsai, Wei-Chih Hung, Wenrui Ding, Shuo Liu, Ming-Hsuan Yang(参考訳) マルチタスク学習(MTL)は、関連するタスク間で表現を共有することでモデル一般化を向上することを目的としている。 典型的なMTL法は、全てのタスクに対して完全に複数の接地構造を同時に訓練する。 しかし、1つのデータセットはそれぞれのタスクに対するアノテーションを含まないかもしれない。 そこで本研究では,半教師付きマルチタスク学習(semimtl, semi-supervised multi-task learning)手法を提案する。 この目的のために,ラベルなしデータを活用してタスクブランチを最適化し,部分的アノテーションによるデータセット全体のタスクを達成することで,半教師付き学習における逆学習スキームを設計する。 さらに,様々なアライメント定式化を伴うドメイン認識型判別器構造を提案し,データセット間のドメイン不一致を緩和する。 最後に,街路ビューとリモートセンシングベンチマークにおいて,異なるデータセット間で学習する手法の有効性を示す。

Multi-Task Learning (MTL) aims to enhance the model generalization by sharing representations between related tasks for better performance. Typical MTL methods are jointly trained with the complete multitude of ground-truths for all tasks simultaneously. However, one single dataset may not contain the annotations for each task of interest. To address this issue, we propose the Semi-supervised Multi-Task Learning (SemiMTL) method to leverage the available supervisory signals from different datasets, particularly for semantic segmentation and depth estimation tasks. To this end, we design an adversarial learning scheme in our semi-supervised training by leveraging unlabeled data to optimize all the task branches simultaneously and accomplish all tasks across datasets with partial annotations. We further present a domain-aware discriminator structure with various alignment formulations to mitigate the domain discrepancy issue among datasets. Finally, we demonstrate the effectiveness of the proposed method to learn across different datasets on challenging street view and remote sensing benchmarks.
翻訳日:2021-10-15 14:49:18 公開日:2021-10-14
# 粗末から粗末:モーメントのローカライゼーション前のビデオ検索

Coarse to Fine: Video Retrieval before Moment Localization ( http://arxiv.org/abs/2110.07201v1 )

ライセンス: Link先を確認
Zijian Gao and Huanyu Liu and Jingyu Liu(参考訳) ビデオコーパスモーメント検索(VCMR)の現在最先端の手法は、利便性と速度のために類似性に基づく特徴アライメントアプローチを用いることが多い。 しかし、コサイン類似性アライメントのような後期融合手法では、クエリテキストとビデオの両方から情報をフル活用することはできない。 本稿では,機能アライメントと機能融合を組み合わせることで,VCMRの性能向上を図る。

The current state-of-the-art methods for video corpus moment retrieval (VCMR) often use similarity-based feature alignment approach for the sake of convenience and speed. However, late fusion methods like cosine similarity alignment are unable to make full use of the information from both query texts and videos. In this paper, we combine feature alignment with feature fusion to promote the performance on VCMR.
翻訳日:2021-10-15 14:49:00 公開日:2021-10-14
# 垂直に見る:フーリエスペクトルによる軌道予測のための階層ネットワーク

View Vertically: A Hierarchical Network for Trajectory Prediction via Fourier Spectrums ( http://arxiv.org/abs/2110.07288v1 )

ライセンス: Link先を確認
Conghao Wong and Beihao Xia and Ziming Hong and Qinmu Peng and Xinge You(参考訳) 人間やロボットのようなエージェントの将来の動きや行動を理解し予測する学習は、行動分析、ロボットナビゲーション、自動運転車など、さまざまな自律プラットフォームにとって極めて重要である。 エージェントの多様なパーソナリティや意思決定スタイルといった本質的な要因は、彼らの将来の計画に豊かで多様な変化と多彩な特徴をもたらす。 さらに、極端に相互作用する要因は、その軌跡に豊かで多様な変化をもたらした。 従来の手法は主に軌道を時系列として扱い、予測性能が高い。 本研究では,エージェントの軌跡,すなわちフーリエスペクトルに着目し,その将来の行動ルールを新しい階層的な方法で探求する。 本稿では,2つの連続キーポイント推定とスペクトル補間サブネットワークを結合したTransformer-based Vモデルを提案する。 実験結果から,ETH-UCYおよびSDDトラジェクトリデータセットにおいて,Vは現在の最先端手法よりも約15倍の定量的改善を実現し,定性的な結果が得られた。

Learning to understand and predict future motions or behaviors for agents like humans and robots are critical to various autonomous platforms, such as behavior analysis, robot navigation, and self-driving cars. Intrinsic factors such as agents' diversified personalities and decision-making styles bring rich and diverse changes and multi-modal characteristics to their future plannings. Besides, the extrinsic interactive factors have also brought rich and varied changes to their trajectories. Previous methods mostly treat trajectories as time sequences, and reach great prediction performance. In this work, we try to focus on agents' trajectories in another view, i.e., the Fourier spectrums, to explore their future behavior rules in a novel hierarchical way. We propose the Transformer-based V model, which concatenates two continuous keypoints estimation and spectrum interpolation sub-networks, to model and predict agents' trajectories with spectrums in the keypoints and interactions levels respectively. Experimental results show that V outperforms most of current state-of-the-art methods on ETH-UCY and SDD trajectories dataset for about 15\% quantitative improvements, and performs better qualitative results.
翻訳日:2021-10-15 14:48:04 公開日:2021-10-14
# ClonalNet: カテゴリの混同に注目して、よりよい分類を行う

ClonalNet: Classifying Better by Focusing on Confusing Categories ( http://arxiv.org/abs/2110.07307v1 )

ライセンス: Link先を確認
Xue Zhang, Hui-Liang Shen(参考訳) 既存のニューラルネットワークは、分類データの表現の単純さから、1ホット符号化を優先的に採用している。 しかし、1ホット表現はカテゴリ間の相関を無視し、一般化が不十分になる可能性がある。 本稿では,トレーニング済みのベースラインネットワークが,イメージを誤って予測しても対象の画像領域に注意を払い,どのカテゴリがベースラインを混乱させるかを明らかにする。 この観察はカテゴリー間相関を考える動機となる。 そこで我々は,事前学習したベースラインから派生した混乱したカテゴリを識別するクローンネットワークであるClnalNetを提案する。 clonalnetアーキテクチャは、ベースラインアーキテクチャと同一か、あるいは小さくすることができる。 同一の場合、clonalnetはベースラインのクローンバージョンであるが、重みを共有しない。 より小さくすると、ClnalNetのトレーニングプロセスは標準的な知識蒸留と似ている。 知識蒸留との違いは、clonalnetを最適化するためにフォーカスピッキング損失を設計することです。 この新たな損失は、ClnalNetを混乱したカテゴリに集中させ、ベースライン参照で、より確実な予測を行う。 実験の結果、ClnalNetはベースラインネットワークと知識蒸留を著しく上回ることがわかった。

Existing neural classification networks predominately adopt one-hot encoding due to its simplicity in representing categorical data. However, the one-hot representation neglects inter-category correlations, which may result in poor generalization. Herein, we observe that a pre-trained baseline network has paid attention to the target image region even though it incorrectly predicts the image, revealing which categories confuse the baseline. This observation motivates us to consider inter-category correlations. Therefore, we propose a clonal network, named ClonalNet, which learns to discriminate between confusing categories derived from the pre-trained baseline. The ClonalNet architecture can be identical or smaller than the baseline architecture. When identical, ClonalNet is a clonal version of the baseline but does not share weights. When smaller, the training process of ClonalNet resembles that of the standard knowledge distillation. The difference from knowledge distillation is that we design a focusing-picking loss to optimize ClonalNet. This novel loss enforces ClonalNet to concentrate on confusing categories and make more confident predictions on ground-truth labels with the baseline reference. Experiments show that ClonalNet significantly outperforms baseline networks and knowledge distillation.
翻訳日:2021-10-15 14:47:43 公開日:2021-10-14
# 単一動作予測のための簡易ベースライン

Simple Baseline for Single Human Motion Forecasting ( http://arxiv.org/abs/2110.07495v1 )

ライセンス: Link先を確認
Chenxi Wang, Yunfeng Wang, Zixuan Huang, Zhiwen Chen(参考訳) グローバルな人間の動き予測は多くの分野において重要であり、これはグローバルな人間の軌道予測とローカルな人間のポーズ予測の組み合わせである。 視覚情報や社会情報はモデルの性能を高めるためにしばしば使用されるが、計算資源を消費しすぎることもある。 本稿では,視覚情報や社会情報を持たない単眼動作予測のための簡易かつ効果的なベースラインを構築し,有用なトレーニング手法を具体化する。 提案手法は,SoMoFベンチマークにおいて,既存の手法よりも高い性能を示す。 我々の研究が将来の研究に新しいアイデアを提供することを期待している。

Global human motion forecasting is important in many fields, which is the combination of global human trajectory prediction and local human pose prediction. Visual and social information are often used to boost model performance, however, they may consume too much computational resource. In this paper, we establish a simple but effective baseline for single human motion forecasting without visual and social information, equipped with useful training tricks. Our method "futuremotion_ICCV21& quot; outperforms existing methods by a large margin on SoMoF benchmark. We hope our work provide new ideas for future research.
翻訳日:2021-10-15 14:47:09 公開日:2021-10-14
# 弱教師付き物体検出のための逐次ネットワークを用いたコントラスト提案拡張

Contrastive Proposal Extension with Sequential Network for Weakly Supervised Object Detection ( http://arxiv.org/abs/2110.07511v1 )

ライセンス: Link先を確認
Pei Lv, Suqi Hu, Tianran Hao, Haohan Ji, Lisha Cui, Haoyi Fan, Mingliang Xu and Changsheng Xu(参考訳) 画像レベルのラベルしか使用せず、膨大なアノテーションコストを節約できるため、WSOD(Weakly supervised Object Detection)が注目されている。 ほとんどのWSODメソッドは、インスタンス分類問題とみなす基本的なフレームワークとしてMIL(Multiple Instance Learning)を使用します。 しかし、MILに基づくこれらの手法は、対応する完全領域、すなわち不完全性ではなく、異なるインスタンスの最も区別された領域にのみ収束する傾向にある。 人によって物事を観察する習慣に触発されて,初期提案と拡張提案を比較して,その初期提案を最適化する手法を提案する。 具体的には、複数方向のコントラスト付き提案拡張(D-CPE)で構成されるコントラスト型提案拡張(CPE)と、LSTMネットワークと対応するデコーダに基づくエンコーダを含むD-CPEの新たな戦略を提案する。 %\textcolor{red}{with temporal network} である。 まず、MILにおける初期提案の境界は、適切に設計された順序に従って異なる位置に拡張される。 次に、cpeはエンコーダを用いてそれらの特徴セマンティクスを抽出することで拡張提案と初期提案を比較し、初期提案の整合性を計算して初期提案のスコアを最適化する。

Weakly supervised object detection (WSOD) has attracted more and more attention since it only uses image-level labels and can save huge annotation costs. Most of the WSOD methods use Multiple Instance Learning (MIL) as their basic framework, which regard it as an instance classification problem. However, these methods based on MIL tends to converge only on the most discriminate regions of different instances, rather than their corresponding complete regions, that is, insufficient integrity. Inspired by the habit of observing things by the human, we propose a new method by comparing the initial proposals and the extension ones to optimize those initial proposals. Specifically, we propose one new strategy for WSOD by involving contrastive proposal extension (CPE), which consists of multiple directional contrastive proposal extensions (D-CPE), and each D-CPE contains encoders based on LSTM network and corresponding decoders. %\textcolor{red}{with temporal network}. Firstly, the boundary of initial proposals in MIL is extended to different positions according to well-designed sequential order. Then, CPE compares the extended proposal and the initial proposal by extracting the feature semantics of them using the encoders, and calculates the integrity of the initial proposal to optimize the score of the initial proposal.
翻訳日:2021-10-15 14:47:00 公開日:2021-10-14
# 擬似ラベルを用いた時間的3次元ポーズ推定の学習

Learning Temporal 3D Human Pose Estimation with Pseudo-Labels ( http://arxiv.org/abs/2110.07578v1 )

ライセンス: Link先を確認
Arij Bouazizi and Ulrich Kressel and Vasileios Belagiannis(参考訳) 自己監督型3次元ポーズ推定のための簡易で効果的なアプローチを提案する。 先行研究と異なり、我々は多視点自己監督の隣の時間的情報を探究する。 トレーニング中は、マルチビューカメラシステムの2Dボディポーズ推定を三角測量に頼っている。 時間畳み込みニューラルネットワークは、生成された3次元地下構造と幾何学的多視点整合性損失で訓練され、予測された3次元体骨格に幾何学的制約を与える。 推測中、モデルでは1つの視点から2dボディポーズのシーケンスを受け取り、3dボディポーズの予測を行う。 提案手法はHuman3.6MとMPI-INF-3DHPベンチマークの最先端性能を実現する。 私たちのコードとモデルは、 \url{https://github.com/v ru2020/TM_HPE/}で公開されています。

We present a simple, yet effective, approach for self-supervised 3D human pose estimation. Unlike the prior work, we explore the temporal information next to the multi-view self-supervision. During training, we rely on triangulating 2D body pose estimates of a multiple-view camera system. A temporal convolutional neural network is trained with the generated 3D ground-truth and the geometric multi-view consistency loss, imposing geometrical constraints on the predicted 3D body skeleton. During inference, our model receives a sequence of 2D body pose estimates from a single-view to predict the 3D body pose for each of them. An extensive evaluation shows that our method achieves state-of-the-art performance in the Human3.6M and MPI-INF-3DHP benchmarks. Our code and models are publicly available at \url{https://github.com/v ru2020/TM_HPE/}.
翻訳日:2021-10-15 14:46:36 公開日:2021-10-14
# SoGCN: 2次グラフ畳み込みネットワーク

SoGCN: Second-Order Graph Convolutional Networks ( http://arxiv.org/abs/2110.07141v1 )

ライセンス: Link先を確認
Peihao Wang, Yuehao Wang, Hua Lin, Jianbo Shi(参考訳) マルチホップアグリゲーションを持つグラフ畳み込みネットワーク(GCN)は、1ホップGCNよりも表現力が高いが、モデルの複雑さに悩まされている。 同等の表現性を達成し、この副作用を最小限にする最短集約範囲を見つけることは、未解決の問題である。 本稿では,多層二階グラフ畳み込み(sogc)により任意の係数の多項式スペクトルフィルタを表現できることを示すことで,この疑問に答える。 単一ホップアグリゲーション、マルチホップ伝搬、ジャンプ接続を持つモデルと比較すると、sogcは軽量で効率的で実装が容易なフィルタ表現完全性を持っている。 そこで我々は,GCNの基本構築ブロックを形成するためのシンプルな設計であり,CNNの3ドル3ドルカーネルと同じ役割を果たすことを示唆した。 我々は2次グラフ畳み込みネットワーク(sogcn)をsoccで構築し,それらの点を検証するフィルタ適合性を検証するための合成データセットを設計する。 実世界のタスクに対しては,ノード分類,グラフ分類,グラフ回帰データセットのベンチマーク上で,SoGCNの最先端性能を示す。

Graph Convolutional Networks (GCN) with multi-hop aggregation is more expressive than one-hop GCN but suffers from higher model complexity. Finding the shortest aggregation range that achieves comparable expressiveness and minimizes this side effect remains an open question. We answer this question by showing that multi-layer second-order graph convolution (SoGC) is sufficient to attain the ability of expressing polynomial spectral filters with arbitrary coefficients. Compared to models with one-hop aggregation, multi-hop propagation, and jump connections, SoGC possesses filter representational completeness while being lightweight, efficient, and easy to implement. Thereby, we suggest that SoGC is a simple design capable of forming the basic building block of GCNs, playing the same role as $3 \times 3$ kernels in CNNs. We build our Second-Order Graph Convolutional Networks (SoGCN) with SoGC and design a synthetic dataset to verify its filter fitting capability to validate these points. For real-world tasks, we present the state-of-the-art performance of SoGCN on the benchmark of node classification, graph classification, and graph regression datasets.
翻訳日:2021-10-15 14:44:13 公開日:2021-10-14
# ソフト行動規則化によるオフライン強化学習

Offline Reinforcement Learning with Soft Behavior Regularization ( http://arxiv.org/abs/2110.07395v1 )

ライセンス: Link先を確認
Haoran Xu, Xianyuan Zhan, Jianxiong Li, Honglei Yin(参考訳) オフライン強化学習 (RL) への以前のアプローチは、通常、既存のオフラインアクター批判アルゴリズムを、ポリシーとオフラインデータ間のばらつきを測定するペナルティで強化する \textit{behavior regularization} を利用する。 しかし、これらのアプローチは行動ポリシーよりも性能の向上が保証されていない。 本研究は,学習方針と行動方針との性能差からスタートし,行動方針の優位関数値に対応するオフライン設定で使用可能な新しい政策学習目標を,州平均密度比に乗じて導出する。 本研究では, 密度比を計算し, 状態依存行動正規化と等価性を示す実用的な方法を提案する。 以前のアプローチで使われる状態非依存の正規化とは異なり、この \textit{soft} 正規化は高信頼状態における政策逸脱のさらなる自由を可能にし、より良い性能と安定性をもたらす。 そこで我々は,本アルゴリズムをソフト行動規則化アクター批判 (SBAC) と呼ぶ。 実験結果から,SBACは連続的な制御ロコモーションと操作タスクのセットにおいて,最先端技術に適合または優れることが示された。

Most prior approaches to offline reinforcement learning (RL) utilize \textit{behavior regularization}, typically augmenting existing off-policy actor critic algorithms with a penalty measuring divergence between the policy and the offline data. However, these approaches lack guaranteed performance improvement over the behavior policy. In this work, we start from the performance difference between the learned policy and the behavior policy, we derive a new policy learning objective that can be used in the offline setting, which corresponds to the advantage function value of the behavior policy, multiplying by a state-marginal density ratio. We propose a practical way to compute the density ratio and demonstrate its equivalence to a state-dependent behavior regularization. Unlike state-independent regularization used in prior approaches, this \textit{soft} regularization allows more freedom of policy deviation at high confidence states, leading to better performance and stability. We thus term our resulting algorithm Soft Behavior-regularized Actor Critic (SBAC). Our experimental results show that SBAC matches or outperforms the state-of-the-art on a set of continuous control locomotion and manipulation tasks.
翻訳日:2021-10-15 14:43:51 公開日:2021-10-14
# 非対称グラフ表現学習

Asymmetric Graph Representation Learning ( http://arxiv.org/abs/2110.07436v1 )

ライセンス: Link先を確認
Zhuo Tan, Bin Liu and Guosheng Yin(参考訳) グラフニューラルネットワーク(GNN)の巨大な成功にもかかわらず、既存のGNNは、接続されたノード間の関係が双方向対称である(つまり、情報を前後に渡すことができる)非指向グラフにのみ適用できる。 しかし、情報フローが非対称であるようなアプリケーションでは、情報が一方向にしか渡れないような有向グラフが多数存在する。 例えば、有向エッジは、情報は開始ノードから終了ノードへのみ前方に伝達できるが、後方に伝達できないことを示す。 このような有向グラフの非対称構造をgnnの枠組み内に収容するために,有向グラフ解析のための単純かつ極めて効果的なフレームワークを提案する。 送信機能と受信機能をそれぞれモデル化するために,各ノードに対して入出力埋め込みを定義する。 我々は、まず、ノードの入ってくる特徴を集約・更新する第1のステップと、出力する特徴を集約・更新する第2のステップをさらに発展させます。 各ノードに2つのロールを設定することにより、開始ノードの出射埋め込みと終了ノードの入射埋め込みとに基づいて、有向エッジの可能性を算出することができる。 全てのエッジのログ類似性は、提案モデルの正規化の自然な役割を担い、深部GNNの過度に平滑な問題を緩和することができる。 複数の実世界の有向グラフに対する大規模な実験は、ノードレベルとグラフレベルの両方のタスクにおいて提案されたモデルの優れた性能を示す。

Despite the enormous success of graph neural networks (GNNs), most existing GNNs can only be applicable to undirected graphs where relationships among connected nodes are two-way symmetric (i.e., information can be passed back and forth). However, there is a vast amount of applications where the information flow is asymmetric, leading to directed graphs where information can only be passed in one direction. For example, a directed edge indicates that the information can only be conveyed forwardly from the start node to the end node, but not backwardly. To accommodate such an asymmetric structure of directed graphs within the framework of GNNs, we propose a simple yet remarkably effective framework for directed graph analysis to incorporate such one-way information passing. We define an incoming embedding and an outgoing embedding for each node to model its sending and receiving features respectively. We further develop two steps in our directed GNN model with the first one to aggregate/update the incoming features of nodes and the second one to aggregate/update the outgoing features. By imposing the two roles for each node, the likelihood of a directed edge can be calculated based on the outgoing embedding of the start node and the incoming embedding of the end node. The log-likelihood of all edges plays a natural role of regularization for the proposed model, which can alleviate the over-smoothing problem of the deep GNNs. Extensive experiments on multiple real-world directed graphs demonstrate outstanding performances of the proposed model in both node-level and graph-level tasks.
翻訳日:2021-10-15 14:43:31 公開日:2021-10-14
# ニューラルネットワークにおける一貫した順序回帰

Universally Rank Consistent Ordinal Regression in Neural Networks ( http://arxiv.org/abs/2110.07470v1 )

ライセンス: Link先を確認
Garrett Jenkinson, Kia Khezeli, Gavin R. Oliver, John Kalantari, Eric W. Klee(参考訳) 教師付き学習における順序ラベルの広さにもかかわらず、カテゴリー横断エントロピー損失を用いた分類分類などの問題を扱うことは深層学習において一般的である。 ラベルの順序構造を尊重しながらこの問題に対処しようとする最近の手法は、順序回帰を一連の拡張二分分類サブタスクに変換することに頼っている。 しかし、理論的・実践的な制約により、そのような手法の採用は相容れないままである。 ここでは、サブタスク確率がマルコフ連鎖を形成することを示すことでこれらの制限に対処する。 ニューラルネットワークのアーキテクチャを手軽に修正してこの事実を生かす方法を示し、予測を普遍的にランク付けできるように制約する。 さらに、全てのランク整合解をこの定式化内で表現できることを証明できる。 多様なベンチマークと、新型コロナウイルスの予後のための特殊なリカレントニューラルネットワークの現実的な応用を用いて、本手法の実用的優位性を現在の最先端技術と比較した。 このメソッドは、ユーザフレンドリーなPyTorchとTensorFlowパッケージとしてオープンソース化されている。

Despite the pervasiveness of ordinal labels in supervised learning, it remains common practice in deep learning to treat such problems as categorical classification using the categorical cross entropy loss. Recent methods attempting to address this issue while respecting the ordinal structure of the labels have resorted to converting ordinal regression into a series of extended binary classification subtasks. However, the adoption of such methods remains inconsistent due to theoretical and practical limitations. Here we address these limitations by demonstrating that the subtask probabilities form a Markov chain. We show how to straightforwardly modify neural network architectures to exploit this fact and thereby constrain predictions to be universally rank consistent. We furthermore prove that all rank consistent solutions can be represented within this formulation. Using diverse benchmarks and the real-world application of a specialized recurrent neural network for COVID-19 prognosis, we demonstrate the practical superiority of this method versus the current state-of-the-art. The method is open sourced as user-friendly PyTorch and TensorFlow packages.
翻訳日:2021-10-15 14:41:06 公開日:2021-10-14
# 多目的クラスタリング:MOCLE、MOCKおよび$\Delta$-MOCKのデータ駆動分析

Multi-objective Clustering: A Data-driven Analysis of MOCLE, MOCK and $\Delta$-MOCK ( http://arxiv.org/abs/2110.07521v1 )

ライセンス: Link先を確認
Adriano Kultzak, Cristina Y. Morimoto, Aurora Pozo, Marc\'ilio C. P. de Souto(参考訳) 我々はMOCK、$\Delta$-MOCK、MOCLEのデータ駆動分析を行う。 これら3つの密接な関係を持つアプローチは,マルチ目的最適化によるクラスタ化である。 具体的には、異なるプロパティを示す12のデータセットのコレクションに基づいて、最近提案された$\Delta$-MOCKと比較してMOCLEとMOCKのパフォーマンスを調査する。 また,どの手法が他の手法に対して良い/悪い性能を示すかを定量的に分析するだけでなく,なぜそのような行動が起こったのかをより詳細に分析する。 実際,本分析の結果は,研究手法の強みと弱みに関する有用な知見を提供するものである。

We present a data-driven analysis of MOCK, $\Delta$-MOCK, and MOCLE. These are three closely related approaches that use multi-objective optimization for crisp clustering. More specifically, based on a collection of 12 datasets presenting different proprieties, we investigate the performance of MOCLE and MOCK compared to the recently proposed $\Delta$-MOCK. Besides performing a quantitative analysis identifying which method presents a good/poor performance with respect to another, we also conduct a more detailed analysis on why such a behavior happened. Indeed, the results of our analysis provide useful insights into the strengths and weaknesses of the methods investigated.
翻訳日:2021-10-15 14:40:50 公開日:2021-10-14
# 人間行動パターンマイニングのための時系列クラスタリング

Time Series Clustering for Human Behavior Pattern Mining ( http://arxiv.org/abs/2110.07549v1 )

ライセンス: Link先を確認
Rohan Kabra, Divya Saxena, Dhaval Patel, and Jiannong Cao(参考訳) 人間の行動モデリングは、人間の日常に固有の行動パターンの学習と理解を扱う。 既存のパターンマイニング技術は、人間の力学が厳密に周期的であると仮定するか、入力としてモードの数を必要とするか、センサーデータに不確実性を考慮するかのいずれかである。 本稿では,時系列データから人間の行動(MTパターン)をモデル化するための新しいクラスタリング手法を提案する。 For mining frequent human behavior patterns effectively, we utilize a three-stage pipeline: (1) represent time series data into sequence of regularly sampled equal-sized unit time intervals for better analysis, (2) a new distance measure scheme is proposed to cluster similar sequences which can handle temporal variation and uncertainty in the data, and (3) exploit an exemplar-based clustering mechanism and fine-tune its parameters to output minimum number of clusters with given permissible distance constraints and without knowing the number of modes present in the data. そして、クラスタ内の全てのシーケンスの平均は人間の行動パターンと見なされる。 2つの実世界のデータセットとシミュレーションデータセットに関する実証的研究は、MTパターンがクラスタリングの内部および外部の尺度に有効であることを示す。

Human behavior modeling deals with learning and understanding of behavior patterns inherent in humans' daily routines. Existing pattern mining techniques either assume human dynamics is strictly periodic, or require the number of modes as input, or do not consider uncertainty in the sensor data. To handle these issues, in this paper, we propose a novel clustering approach for modeling human behavior (named, MTpattern) from time-series data. For mining frequent human behavior patterns effectively, we utilize a three-stage pipeline: (1) represent time series data into sequence of regularly sampled equal-sized unit time intervals for better analysis, (2) a new distance measure scheme is proposed to cluster similar sequences which can handle temporal variation and uncertainty in the data, and (3) exploit an exemplar-based clustering mechanism and fine-tune its parameters to output minimum number of clusters with given permissible distance constraints and without knowing the number of modes present in the data. Then, the average of all sequences in a cluster is considered as a human behavior pattern. Empirical studies on two real-world datasets and a simulated dataset demonstrate the effectiveness of MTpattern w.r.to internal and external measures of clustering.
翻訳日:2021-10-15 14:40:40 公開日:2021-10-14
# 拡散正規化流れ

Diffusion Normalizing Flow ( http://arxiv.org/abs/2110.07579v1 )

ライセンス: Link先を確認
Qinsheng Zhang, Yongxin Chen(参考訳) 本稿では,確率微分方程式(SDE)に基づく拡散正規化フローという新しい生成モデルを提案する。 このアルゴリズムは、2つのニューラルSDEで構成されており、データに徐々にノイズを加えてガウスランダムノイズに変換するフォワードSDEと、データ分布からサンプルへのノイズを徐々に除去する後方SDEである。 2つのニューラルSDEを共同でトレーニングすることで、両者の違いを定量化する共通のコスト関数を最小化することで、後方SDEは拡散過程に収束し、ガウス分布から始まり、所望のデータ分布で終わる。 本手法は流れの正規化と拡散確率モデルと密接に関係しており,両者の組み合わせとみなすことができる。 拡散正規化フローと比べ、拡散正規化フローは鋭い境界を持つ分布を学習することができる。 拡散確率モデルと比較して拡散正規化フローは離散化ステップが少なく、サンプリング効率が良くなる。 本アルゴリズムは,高次元データ密度推定と画像生成の両タスクにおける競合性能を示す。

We present a novel generative modeling method called diffusion normalizing flow based on stochastic differential equations (SDEs). The algorithm consists of two neural SDEs: a forward SDE that gradually adds noise to the data to transform the data into Gaussian random noise, and a backward SDE that gradually removes the noise to sample from the data distribution. By jointly training the two neural SDEs to minimize a common cost function that quantifies the difference between the two, the backward SDE converges to a diffusion process the starts with a Gaussian distribution and ends with the desired data distribution. Our method is closely related to normalizing flow and diffusion probabilistic models and can be viewed as a combination of the two. Compared with normalizing flow, diffusion normalizing flow is able to learn distributions with sharp boundaries. Compared with diffusion probabilistic models, diffusion normalizing flow requires fewer discretization steps and thus has better sampling efficiency. Our algorithm demonstrates competitive performance in both high-dimension data density estimation and image generation tasks.
翻訳日:2021-10-15 14:40:24 公開日:2021-10-14
# 低品質コード切替データを用いた言語間音声のクローニングの改善

Improve Cross-lingual Voice Cloning Using Low-quality Code-switched Data ( http://arxiv.org/abs/2110.07210v1 )

ライセンス: Link先を確認
Haitong Zhang, Yue Lin(参考訳) 近年,テキスト・トゥ・スポーチ (TTS) ではシーケンス・トゥ・シークエンス (seq-to-seq) モデルの適用が成功している。 複数の言語の音声を合成するには、通常、ターゲットの話者から多言語音声を必要とする。 しかし、ターゲット話者に対して高品質な多言語TSデータを収集することは、手間と費用がかかる。 本稿では,非対象話者の低品質なコード切替データを用いて,対象話者に対する言語間音声のクローニングを実現することを提案する。 提案手法は,自然性と話者の一貫性の両面で,対象音声に高品質のコード切り換え音声を生成することができることを示す。 さらに,本手法は,言語間音声クローニングにおける最先端(sota)性能に匹敵する結果が得られることがわかった。

Recently, sequence-to-sequence (seq-to-seq) models have been successfully applied in text-to-speech (TTS) to synthesize speech for single-language text. To synthesize speech for multiple languages usually requires multi-lingual speech from the target speaker. However, it is both laborious and expensive to collect high-quality multi-lingual TTS data for the target speakers. In this paper, we proposed to use low-quality code-switched found data from the non-target speakers to achieve cross-lingual voice cloning for the target speakers. Experiments show that our proposed method can generate high-quality code-switched speech in the target voices in terms of both naturalness and speaker consistency. More importantly, we find that our method can achieve a comparable result to the state-of-the-art (SOTA) performance in cross-lingual voice cloning.
翻訳日:2021-10-15 14:39:46 公開日:2021-10-14
# 音響, 音声, 言語 (APL) 埋め込みを用いた誤認識検出と診断へのアプローチ

An Approach to Mispronunciation Detection and Diagnosis with Acoustic, Phonetic and Linguistic (APL) Embeddings ( http://arxiv.org/abs/2110.07274v1 )

ライセンス: Link先を確認
Wenxuan Ye, Shaoguang Mao, Frank Soong, Wenshan Wu, Yan Xia, Jonathan Tien, Zhiyong Wu(参考訳) 多くの誤発音検出・診断(MD&D)研究手法は、音響的特徴と言語的特徴の両方を入力として利用しようとする。 しかし、音素レベルでの大量の注釈付き訓練データが不足していることもあり、性能の改善は限られている。 大量の単語レベルのアノテーションで訓練されたASRモデルから抽出された音声埋め込みは、ノイズロストかつ話者に依存しない方法で、入力音声の内容の優れた表現として機能する。 これらの埋め込みは暗黙の音声補足情報として使われる場合、明示的な音素アノテーションのデータ不足を軽減することができる。 我々は,より強力なMD\&Dシステムを構築するために,音響,音声,言語(APL)埋め込み機能を併用することを提案する。 L2-ARCTICデータベースで得られた実験結果から, 提案手法は検出精度, 診断誤差率およびF測定値において, 9.93%, 10.13%, 6.17%の差を示した。

Many mispronunciation detection and diagnosis (MD&D) research approaches try to exploit both the acoustic and linguistic features as input. Yet the improvement of the performance is limited, partially due to the shortage of large amount annotated training data at the phoneme level. Phonetic embeddings, extracted from ASR models trained with huge amount of word level annotations, can serve as a good representation of the content of input speech, in a noise-robust and speaker-independent manner. These embeddings, when used as implicit phonetic supplementary information, can alleviate the data shortage of explicit phoneme annotations. We propose to utilize Acoustic, Phonetic and Linguistic (APL) embedding features jointly for building a more powerful MD\&D system. Experimental results obtained on the L2-ARCTIC database show the proposed approach outperforms the baseline by 9.93%, 10.13% and 6.17% on the detection accuracy, diagnosis error rate and the F-measure, respectively.
翻訳日:2021-10-15 14:37:59 公開日:2021-10-14
# SGoLAM:マルチオブジェクトゴールナビゲーションのための同時ゴールローカライゼーションとマッピング

SGoLAM: Simultaneous Goal Localization and Mapping for Multi-Object Goal Navigation ( http://arxiv.org/abs/2110.07171v1 )

ライセンス: Link先を確認
Junho Kim, Eun Sun Lee, Mingi Lee, Donsu Zhang, and Young Min Kim(参考訳) 本稿では,多目的目標探索のための簡易かつ効率的なアルゴリズムであるsgolamについて述べる。 RGB-DカメラとGPS/コンパスセンサーを装備したエージェントは,現実的な3D環境下でターゲットオブジェクトの列に移動させることが目的である。 我々のパイプラインは、視覚ナビゲーションのための古典的なアプローチの強みをフル活用し、問題をマッピングとゴールローカライゼーションという2つの重要なコンポーネントに分解する。 マッピングモジュールは深度観測を占有マップに変換し、ゴールローカライズモジュールは目標オブジェクトの位置をマークする。 エージェントのポリシーは、2つのモジュールによって提供される情報を使って決定される。 私たちのアプローチでは、ニューラルネットワークのトレーニングは必要としないため、既成の方法で使用することができ、新しい、目に見えない環境での迅速な一般化に役立てることができる。 それでも、我々のアプローチは最先端の学習ベースのアプローチと同等に機能する。 SGoLAMはCVPR 2021 MultiON(Multi-Object Goal Navigation)の2位にランクインしている。 私たちはコードを \emph{https://github.com/e unsunlee/sgolam} で公開しました。

We present SGoLAM, short for simultaneous goal localization and mapping, which is a simple and efficient algorithm for Multi-Object Goal navigation. Given an agent equipped with an RGB-D camera and a GPS/Compass sensor, our objective is to have the agent navigate to a sequence of target objects in realistic 3D environments. Our pipeline fully leverages the strength of classical approaches for visual navigation, by decomposing the problem into two key components: mapping and goal localization. The mapping module converts the depth observations into an occupancy map, and the goal localization module marks the locations of goal objects. The agent's policy is determined using the information provided by the two modules: if a current goal is found, plan towards the goal and otherwise, perform exploration. As our approach does not require any training of neural networks, it could be used in an off-the-shelf manner, and amenable for fast generalization in new, unseen environments. Nonetheless, our approach performs on par with the state-of-the-art learning-based approaches. SGoLAM is ranked 2nd in the CVPR 2021 MultiON (Multi-Object Goal Navigation) challenge. We have made our code publicly available at \emph{https://github.com/e unsunlee/SGoLAM}.
翻訳日:2021-10-15 14:37:28 公開日:2021-10-14
# グローバルマップ一貫性を持つ視覚ナビゲーションのための自己教師あり領域適応

Self-Supervised Domain Adaptation for Visual Navigation with Global Map Consistency ( http://arxiv.org/abs/2110.07184v1 )

ライセンス: Link先を確認
Eun Sun Lee, Junho Kim, and Young Min Kim(参考訳) そこで本稿では,視覚ナビゲーションエージェントの軽量化と自己教師あり適応を提案する。 無騒音環境下で訓練された具体化エージェントを与えられた場合,アクチュエーションとオドメトリーセンサノイズが存在する雑音環境にエージェントを移すことが目的である。 提案手法は,ラウンドトリップ軌道の異なる時間ステップで生成されたグローバルマップ間の一貫性を最大化する。 提案課題は完全に自己監督的であり, 地味なポーズデータや明示的なノイズモデルからの監視は不要である。 加えて、タスク目標の最適化は非常に軽量であり、トレーニングはコモディティGPU上で数分以内に終了する。 実験の結果,提案課題はエージェントが新しいノイズの多い環境への移動を成功させるのに役立つことがわかった。 転送されたエージェントは、ローカライゼーションとマッピング精度が向上し、さらに下流の視覚ナビゲーションタスクのパフォーマンスが向上する。 さらに,実世界展開における適用可能性を示すために,自己監視タスクによるテスト時間適応を実証する。

We propose a light-weight, self-supervised adaptation for a visual navigation agent to generalize to unseen environment. Given an embodied agent trained in a noiseless environment, our objective is to transfer the agent to a noisy environment where actuation and odometry sensor noise is present. Our method encourages the agent to maximize the consistency between the global maps generated at different time steps in a round-trip trajectory. The proposed task is completely self-supervised, not requiring any supervision from ground-truth pose data or explicit noise model. In addition, optimization of the task objective is extremely light-weight, as training terminates within a few minutes on a commodity GPU. Our experiments show that the proposed task helps the agent to successfully transfer to new, noisy environments. The transferred agent exhibits improved localization and mapping accuracy, further leading to enhanced performance in downstream visual navigation tasks. Moreover, we demonstrate test-time adaptation with our self-supervised task to show its potential applicability in real-world deployment.
翻訳日:2021-10-15 14:37:07 公開日:2021-10-14
# 悪天候時の自律運転のためのタスク駆動型深部画像強調ネットワーク

Task-Driven Deep Image Enhancement Network for Autonomous Driving in Bad Weather ( http://arxiv.org/abs/2110.07206v1 )

ライセンス: Link先を確認
Younkwan Lee, Jihyo Jeon, Yeongmin Ko, Byunggwan Jeon, Moongu Jeon(参考訳) 自律運転における視覚的認識は、異なる交通条件下で安全かつ持続的に走行する車両にとって重要な部分である。 しかし、大雨や黄土などの悪天候では、視覚知覚の性能はいくつかの劣化の影響を強く受けている。 近年、深層学習に基づく知覚法は、現実の悪天候を反映する複数の劣化効果に対処している。 1)モバイルデバイスへの展開における高い計算コスト 2)画像エンハンスメントと視覚知覚の関連性は,モデル能力の点で低い。 これらの問題を解決するために,高レベル視覚タスクに接続したタスク駆動型画像強調ネットワークを提案し,悪天候による画像の劣化を入力として取り込む。 具体的には,ハイパフォーマンスを維持しつつ,メモリと計算コストを削減し,高密度ブロックの層接続をほとんど削減する新しい低メモリネットワークを提案する。 また,高品質な画像復元と高精度な知覚の両方に適した高レベルタスクモデルをロバストに指導するタスク駆動トレーニング戦略を提案する。 実験結果から,提案手法は車線および2次元物体検出の性能を向上し,低メモリと精度の両面において,悪天候下での深度推定を行うことがわかった。

Visual perception in autonomous driving is a crucial part of a vehicle to navigate safely and sustainably in different traffic conditions. However, in bad weather such as heavy rain and haze, the performance of visual perception is greatly affected by several degrading effects. Recently, deep learning-based perception methods have addressed multiple degrading effects to reflect real-world bad weather cases but have shown limited success due to 1) high computational costs for deployment on mobile devices and 2) poor relevance between image enhancement and visual perception in terms of the model ability. To solve these issues, we propose a task-driven image enhancement network connected to the high-level vision task, which takes in an image corrupted by bad weather as input. Specifically, we introduce a novel low memory network to reduce most of the layer connections of dense blocks for less memory and computational cost while maintaining high performance. We also introduce a new task-driven training strategy to robustly guide the high-level task model suitable for both high-quality restoration of images and highly accurate perception. Experiment results demonstrate that the proposed method improves the performance among lane and 2D object detection, and depth estimation largely under adverse weather in terms of both low memory and accuracy.
翻訳日:2021-10-15 14:36:49 公開日:2021-10-14
# ポイントクラウドフィルタリングの再考:非局所位置に基づくアプローチ

Rethinking Point Cloud Filtering: A Non-Local Position Based Approach ( http://arxiv.org/abs/2110.07253v1 )

ライセンス: Link先を確認
Jinxi Wang, Jincen Jiang, Xuequan Lu, Meili Wang(参考訳) 既存の位置に基づくポイントクラウドフィルタリングは、鋭い幾何学的特徴をほとんど保存できない。 本稿では,非学習非局所的非正規的な視点からポイントクラウドフィルタリングを再考し,特徴保存点クラウドフィルタリングのための新しい位置ベースアプローチを提案する。 通常の手法とは異なり,本手法では通常の情報を必要としない。 中心となる考え方は、クエリされたローカルパッチの非ローカル類似パッチを検索するために、まず類似度メトリックを設計することである。 次に,非局所的類似パッチを正準空間にマッピングし,非局所的情報を集約する。 集約された結果(すなわち座標)は逆に元の空間にマッピングされる。 我々の方法は単純だが効果的だ。 広範な実験により,本手法は一般に位置ベース手法(ディープラーニングと非学習)よりも優れており,通常の手法(深層学習と非学習)と同等の結果が得られた。

Existing position based point cloud filtering methods can hardly preserve sharp geometric features. In this paper, we rethink point cloud filtering from a non-learning non-local non-normal perspective, and propose a novel position based approach for feature-preserving point cloud filtering. Unlike normal based techniques, our method does not require the normal information. The core idea is to first design a similarity metric to search the non-local similar patches of a queried local patch. We then map the non-local similar patches into a canonical space and aggregate the non-local information. The aggregated outcome (i.e. coordinate) will be inversely mapped into the original space. Our method is simple yet effective. Extensive experiments validate our method, and show that it generally outperforms position based methods (deep learning and non-learning), and generates better or comparable outcomes to normal based techniques (deep learning and non-learning).
翻訳日:2021-10-15 14:36:31 公開日:2021-10-14
# カメラキャリブレーションにおける動的目標変形のモデル化

Modeling dynamic target deformation in camera calibration ( http://arxiv.org/abs/2110.07322v1 )

ライセンス: Link先を確認
Annika Hagemann, Moritz Knorr, Christoph Stiller(参考訳) カメラキャリブレーションのアプローチのほとんどは、よく知られた幾何学のキャリブレーションターゲットに依存している。 データ取得中、キャリブレーションターゲットとカメラシステムは、通常、画像のカバレッジとパースペクティブの汎用性を確保するために、互いに移動される。 対象を移動させることで, 目標の一時的な変形が小さくなり, 校正結果に重大な誤差が生じる可能性がある。 私たちの知る限り、キャリブレーション対象の静的不正確性は以前の作業で対処されてきたが、既存のアプローチでは時間的変動や動的変形を捉えることはできない。 ターゲットを移動させながら高精度なキャリブレーションを実現するために,カメラキャリブレーションにおける動的ターゲット変形を明示的にモデル化する方法を提案する。 これは、画像毎のパラメータがわずかである低次元の変形モデルを使用することで実現され、ターゲットポーズとインテラルと協調して最適化することができる。 異なるキャリブレーション目標を用いた動的変形のモデル化の有効性を実証し,その意義を示す。

Most approaches to camera calibration rely on calibration targets of well-known geometry. During data acquisition, calibration target and camera system are typically moved w.r.t. each other, to allow image coverage and perspective versatility. We show that moving the target can lead to small temporary deformations of the target, which can introduce significant errors into the calibration result. While static inaccuracies of calibration targets have been addressed in previous works, to our knowledge, none of the existing approaches can capture time-varying, dynamic deformations. To achieve high-accuracy calibrations despite moving the target, we propose a way to explicitly model dynamic target deformations in camera calibration. This is achieved by using a low-dimensional deformation model with only few parameters per image, which can be optimized jointly with target poses and intrinsics. We demonstrate the effectiveness of modeling dynamic deformations using different calibration targets and show its significance in a structure-from-motio n application.
翻訳日:2021-10-15 14:36:15 公開日:2021-10-14
# (参考訳) 言語間伝達のための合成可能なスパース微調整 [全文訳有]

Composable Sparse Fine-Tuning for Cross-Lingual Transfer ( http://arxiv.org/abs/2110.07560v1 )

ライセンス: CC BY 4.0
Alan Ansell, Edoardo Maria Ponti, Anna Korhonen, Ivan Vuli\'c(参考訳) 事前学習されたモデルのパラメータを微調整することが、伝達学習の主流のアプローチとなっている。 効率を高め、壊滅的な忘れや干渉を防ぐため、アダプタや微調整などの技術が開発されている。 アダプタはモジュール化されており、異なる知識の面(専門言語やタスクアダプタなど)にモデルを適用するために組み合わせることができる。 すべてのモデルコンポーネントの振る舞いを制御するため、スパース微調整は表現力がある。 本稿では,これらの特性を両立させた新しい微調整手法を提案する。 特に、ロタリー・チケット仮説の単純な変種に基づいて、スパースな実数値マスクを学習する。 タスク固有のマスクは、ソース言語の注釈データと、ターゲット言語におけるマスク付き言語モデルから言語固有のマスクとから得られる。 どちらのマスクも事前訓練されたモデルで構成できる。 アダプタベースの微調整とは異なり、この手法は推論時にパラメータの数を増やしたり、元のモデルアーキテクチャを変更したりしない。 最も重要なのは、universal dependencies、 masakhaner、および americasnliを含む一連の多言語ベンチマークにおいて、ゼロショットのクロスリンガル転送においてアダプタを大きなマージンで上回っていることだ。 深度分析から、両方の予防には空間性が不可欠であることが分かる。 1)構成する微調整間の干渉及び 2) オーバーフィット。 コードとモデルはhttps://github.com/c ambridgeltl/composab le-sftでリリースします。

Fine-tuning all parameters of a pre-trained model has become the mainstream approach for transfer learning. To increase its efficiency and prevent catastrophic forgetting and interference, techniques like adapters and sparse fine-tuning have been developed. Adapters are modular, as they can be combined to adapt a model towards different facets of knowledge (e.g., dedicated language and/or task adapters). Sparse fine-tuning is expressive, as it controls the behavior of all model components. In this work, we introduce a new fine-tuning method with both these desirable properties. In particular, we learn sparse, real-valued masks based on a simple variant of the Lottery Ticket Hypothesis. Task-specific masks are obtained from annotated data in a source language, and language-specific masks from masked language modeling in a target language. Both these masks can then be composed with the pre-trained model. Unlike adapter-based fine-tuning, this method neither increases the number of parameters at inference time nor alters the original model architecture. Most importantly, it outperforms adapters in zero-shot cross-lingual transfer by a large margin in a series of multilingual benchmarks, including Universal Dependencies, MasakhaNER, and AmericasNLI. Based on an in-depth analysis, we additionally find that sparsity is crucial to prevent both 1) interference between the fine-tunings to be composed and 2) overfitting. We release the code and models at https://github.com/c ambridgeltl/composab le-sft.
翻訳日:2021-10-15 14:34:33 公開日:2021-10-14
# Procrastinated Tree Search: 遅延、ノイズ、多要素フィードバックによるブラックボックス最適化

Procrastinated Tree Search: Black-box Optimization with Delayed, Noisy, and Multi-fidelity Feedback ( http://arxiv.org/abs/2110.07232v1 )

ライセンス: Link先を確認
Junxiong Wang, Debabrota Basu, Immanuel Trummer(参考訳) ブラックボックス最適化問題では,評価やシミュレーションオラクルのフィードバックによってのみ機能にアクセス可能な未知の目的関数を最大化する。 実生活では、そのようなオラクルのフィードバックはしばしばノイズがあり、オラクルの計算時間に依存する可能性のある未知の遅延の後、利用できる。 さらに、正確な評価が高価であるが、粗い近似が低コストで利用可能であれば、フィードバックは多元性を持つことができる。 この問題に対処するため,階層型楽観木探索(HOO)の汎用拡張であるProCrastinated Tree Search(PCTS)を提案する。 我々は,PCTSの遅延,雑音,多面的フィードバックによる後悔を定量化する汎用的証明手法を提案する。 具体的には,遅延UCB1 (DUCBV) と遅延UCB-V (DUCBV) アルゴリズムで実現されたPCTSの残差を導出する。 ホライズン$t$ が与えられると、pcts は期待遅延が $o(\log t)$ で非遅延hoo の後悔の束縛を保持し、さらに$o(t^{\frac{1-\alpha}{d+2}})$ で遅延が$o(t^{1-\alpha})$ で$\alpha \in (0,1]$ となる。 ノイズレベル,遅延,忠実度が異なるフィードバックに対して,PCTSが最先端のブラックボックス最適化手法よりも優れる複数の合成関数とハイパーパラメータチューニング問題を実験的に検証した。

In black-box optimization problems, we aim to maximize an unknown objective function, where the function is only accessible through feedbacks of an evaluation or simulation oracle. In real-life, the feedbacks of such oracles are often noisy and available after some unknown delay that may depend on the computation time of the oracle. Additionally, if the exact evaluations are expensive but coarse approximations are available at a lower cost, the feedbacks can have multi-fidelity. In order to address this problem, we propose a generic extension of hierarchical optimistic tree search (HOO), called ProCrastinated Tree Search (PCTS), that flexibly accommodates a delay and noise-tolerant bandit algorithm. We provide a generic proof technique to quantify regret of PCTS under delayed, noisy, and multi-fidelity feedbacks. Specifically, we derive regret bounds of PCTS enabled with delayed-UCB1 (DUCB1) and delayed-UCB-V (DUCBV) algorithms. Given a horizon $T$, PCTS retains the regret bound of non-delayed HOO for expected delay of $O(\log T)$ and worsens by $O(T^{\frac{1-\alpha}{d+2}})$ for expected delays of $O(T^{1-\alpha})$ for $\alpha \in (0,1]$. We experimentally validate on multiple synthetic functions and hyperparameter tuning problems that PCTS outperforms the state-of-the-art black-box optimization methods for feedbacks with different noise levels, delays, and fidelity.
翻訳日:2021-10-15 14:03:58 公開日:2021-10-14
# 適応的個人的リスク最小化

Adaptive Differentially Private Empirical Risk Minimization ( http://arxiv.org/abs/2110.07435v1 )

ライセンス: Link先を確認
Xiaoxia Wu and Lingxiao Wang and Irina Cristali and Quanquan Gu and Rebecca Willett(参考訳) 本稿では,適応型(統計的)勾配摂動法を提案する。 各繰り返しにおいて、勾配に付加されるランダムノイズは、ステップサイズに最適に適応し、この過程を適応微分プライベート(ADP)学習と呼ぶ。 同一のプライバシー予算を考慮すれば,バニラランダムノイズを付加する標準差分プライベート法に比べて,adp法が公益保証を大幅に改善できることを実証する。 本手法は, AdaGrad (Duchi et al., 2011) の変種を含む時間変化学習率の勾配に基づくアルゴリズムに特に有用である。 提案する適応微分プライベートアルゴリズムの有効性を示すために,広範な数値実験を行った。

We propose an adaptive (stochastic) gradient perturbation method for differentially private empirical risk minimization. At each iteration, the random noise added to the gradient is optimally adapted to the stepsize; we name this process adaptive differentially private (ADP) learning. Given the same privacy budget, we prove that the ADP method considerably improves the utility guarantee compared to the standard differentially private method in which vanilla random noise is added. Our method is particularly useful for gradient-based algorithms with time-varying learning rates, including variants of AdaGrad (Duchi et al., 2011). We provide extensive numerical experiments to demonstrate the effectiveness of the proposed adaptive differentially private algorithm.
翻訳日:2021-10-15 14:03:20 公開日:2021-10-14
# MIMICause : 臨床ノートからのバイオメディカル概念間の因果関係の定義・同定・予測

MIMICause : Defining, identifying and predicting types of causal relationships between biomedical concepts from clinical notes ( http://arxiv.org/abs/2110.07090v1 )

ライセンス: Link先を確認
Vivek Khetan, Md Imbesat Hassan Rizvi, Jessica Huber, Paige Bartusiak, Bogdan Sacaleanu, Andrew Fano(参考訳) 臨床ノートで伝達される因果関係を理解することは、パーソナライズされた医療へと進むのに役立つ。 本研究では,アノテーションガイドラインを提案し,注釈付きコーパスを開発し,臨床ノートにおける一対の生体医学概念間の因果関係のタイプと方向を識別するためのベースラインスコアを提供する。 2018 n2c2共有タスクデータセットからサンプル化された合計2714の非識別例に注釈を付け、4つの異なる言語モデルベースのアーキテクチャをトレーニングします。 本ガイドラインに基づく注記は,高い注釈間合意,すなわちフレイスのkappaスコア 0.72,因果関係の同定のためのモデルが試験データで0.56のマクロf1スコアを達成した。 臨床テキストにおける注記間合意の高度化は注記ガイドラインの品質を示し,f1スコアは臨床テキストにおける語りの理解に向けた今後の研究の方向性を規定している。

Understanding of causal narratives communicated in clinical notes can help make strides towards personalized healthcare. In this work, MIMICause, we propose annotation guidelines, develop an annotated corpus and provide baseline scores to identify types and direction of causal relations between a pair of biomedical concepts in clinical notes; communicated implicitly or explicitly, identified either in a single sentence or across multiple sentences. We annotate a total of 2714 de-identified examples sampled from the 2018 n2c2 shared task dataset and train four different language model based architectures. Annotation based on our guidelines achieved a high inter-annotator agreement i.e. Fleiss' kappa score of 0.72 and our model for identification of causal relation achieved a macro F1 score of 0.56 on test data. The high inter-annotator agreement for clinical text shows the quality of our annotation guidelines while the provided baseline F1 score sets the direction for future research towards understanding narratives in clinical texts.
翻訳日:2021-10-15 14:03:08 公開日:2021-10-14
# 自動生成トランスクリプトからのポッドキャストエピソードの紹介

Identifying Introductions in Podcast Episodes from Automatically Generated Transcripts ( http://arxiv.org/abs/2110.07096v1 )

ライセンス: Link先を確認
Elise Jing, Kristiana Schneck, Dennis Egan, Scott A. Waterman(参考訳) ポッドキャストのような長文の音声コンテンツが爆発するにつれて、多くのプラットフォームは、全コンテンツから抽出された短く有意義で論理的に一貫性のあるセグメントを提示したいと思っている。 このようなセグメントは、ユーザーが入水する前にコンテンツをサンプルしたり、プラットフォームがコンテンツを宣伝したり推奨したりするのに使うことができる。 しかし、自動音声認識(asr)サービスによって生成された書き起こしの誤り(ノイズ)が多くの課題を提起する、音声単語コンテンツのセグメンテーションにはほとんど注目されていない。 ここでは、400以上のポッドキャストエピソードの完全な書き起こしの新たなデータセットを構築し、各エピソードの紹介位置をラベル付けする。 これらの紹介には、エピソードのトピック、ホスト、ゲストに関する情報が含まれており、著者によって作成されたエピソードの内容の貴重な要約を提供する。 さらに、利用可能なトレーニングデータの量を増やすために、単語置換によるデータセットをさらに強化します。 本研究では,3つのトランスフォーマーモデルを,事前学習したBERTと異なる拡張戦略に基づいて学習し,静的埋め込みモデルと比較して性能が大幅に向上し,ノイズの多いゆるやかな音声データから大規模構造情報をキャプチャできることを示す。 これはモデルの内部アーキテクチャの分析を通じてさらに実証される。 提案手法とデータセットは、音声単語コンテンツの構造に基づくセグメンテーションに関する今後の作業を容易にするために使用できる。

As the volume of long-form spoken-word content such as podcasts explodes, many platforms desire to present short, meaningful, and logically coherent segments extracted from the full content. Such segments can be consumed by users to sample content before diving in, as well as used by the platform to promote and recommend content. However, little published work is focused on the segmentation of spoken-word content, where the errors (noise) in transcripts generated by automatic speech recognition (ASR) services poses many challenges. Here we build a novel dataset of complete transcriptions of over 400 podcast episodes, in which we label the position of introductions in each episode. These introductions contain information about the episodes' topics, hosts, and guests, providing a valuable summary of the episode content, as it is created by the authors. We further augment our dataset with word substitutions to increase the amount of available training data. We train three Transformer models based on the pre-trained BERT and different augmentation strategies, which achieve significantly better performance compared with a static embedding model, showing that it is possible to capture generalized, larger-scale structural information from noisy, loosely-organized speech data. This is further demonstrated through an analysis of the models' inner architecture. Our methods and dataset can be used to facilitate future work on the structure-based segmentation of spoken-word content.
翻訳日:2021-10-15 14:02:49 公開日:2021-10-14
# 言語非依存な生成的質問回答アプローチによるオープンドメイン質問回答

Cross-Lingual GenQA: A Language-Agnostic Generative Question Answering Approach for Open-Domain Question Answering ( http://arxiv.org/abs/2110.07150v1 )

ライセンス: Link先を確認
Benjamin Muller, Luca Soldaini, Rik Koncel-Kedziorski, Eric Lind, Alessandro Moschitti(参考訳) オープン検索生成質問回答(GenQA)は、高品質で自然な回答を英語で提供することが証明されている。 本稿では,多言語環境に対するGenQAアプローチの最初の一般化について述べる。 この目的のために, アラビア語, ベンガル語, 英語, 日本語, ロシア語で, 自然発声, 良好な解答が得られたTyDiQA評価データ(Clark et al., 2020)を拡張するGenTyDiQAデータセットを提案する。 これらすべての言語に対して、GenQAシークエンスに基づくモデルが最先端のAnswer文選択モデルより優れていることを示す。 また、多言語学習モデルが競合し、場合によってはモノリンガルモデルよりも優れていることを示す。 最後に,様々な言語からの情報を入力しても,システムは強力なベースラインと競合することを示す。 基本的に、我々のシステムは、多くの言語からの情報を用いて、我々の言語のどの言語でも質問に答えることができ、これが最初の言語に依存しないGenQAシステムとなる。

Open-Retrieval Generative Question Answering (GenQA) is proven to deliver high-quality, natural-sounding answers in English. In this paper, we present the first generalization of the GenQA approach for the multilingual environment. To this end, we present the GenTyDiQA dataset, which extends the TyDiQA evaluation data (Clark et al., 2020) with natural-sounding, well-formed answers in Arabic, Bengali, English, Japanese, and Russian. For all these languages, we show that a GenQA sequence-to-sequence -based model outperforms a state-of-the-art Answer Sentence Selection model. We also show that a multilingually-train ed model competes with, and in some cases outperforms, its monolingual counterparts. Finally, we show that our system can even compete with strong baselines, even when fed with information from a variety of languages. Essentially, our system is able to answer a question in any language of our language set using information from many languages, making it the first Language-Agnostic GenQA system.
翻訳日:2021-10-15 14:00:55 公開日:2021-10-14
# 純粋特徴に対するニューラルNLPモデルの感度の因果推定

Causally Estimating the Sensitivity of Neural NLP Models to Spurious Features ( http://arxiv.org/abs/2110.07159v1 )

ライセンス: Link先を確認
Yunxiang Zhang, Liangming Pan, Samson Tan, Min-Yen Kan(参考訳) 最近の研究は、予測のために急激な特徴に依存する現代の自然言語処理(NLP)モデルを見つける。 このような効果を緩和することが重要である。 この必要性にもかかわらず、nlpのスプリアスの特徴の異なる形態の効果を評価または比較するための定量的な尺度は存在しない。 我々は、因果関係の文献から平均治療効果の概念を導いた因果推定器CENTを用いて、突発的特徴に対するモデル感度を定量化し、文献におけるこのギャップに対処する。 4つの著名なNLPモデル(TextRNN、BERT、RoBERTa、XLNet)でシミュレーションを行うことで、これらのモデルを8つの突発的な特徴を持つ人工注射に対する感度に対してランク付けする。 さらに私たちは、スプリアス機能に敏感なモデルが推論中にこの機能の摂動に対して頑健でないことを仮定し、検証します。 逆に、この機能によるデータ拡張は、同様の摂動に対するロバスト性を改善する。 感度と頑健性の間に統計的に有意な逆相関が見られ、仮説を実証的に支持する。

Recent work finds modern natural language processing (NLP) models relying on spurious features for prediction. Mitigating such effects is thus important. Despite this need, there is no quantitative measure to evaluate or compare the effects of different forms of spurious features in NLP. We address this gap in the literature by quantifying model sensitivity to spurious features with a causal estimand, dubbed CENT, which draws on the concept of average treatment effect from the causality literature. By conducting simulations with four prominent NLP models -- TextRNN, BERT, RoBERTa and XLNet -- we rank the models against their sensitivity to artificial injections of eight spurious features. We further hypothesize and validate that models that are more sensitive to a spurious feature will be less robust against perturbations with this feature during inference. Conversely, data augmentation with this feature improves robustness to similar perturbations. We find statistically significant inverse correlations between sensitivity and robustness, providing empirical support for our hypothesis.
翻訳日:2021-10-15 14:00:36 公開日:2021-10-14
# トピックコヒーレンスを増強したニューラルテキストセグメンテーションのための事前学習トランスフォーマー

Transformer over Pre-trained Transformer for Neural Text Segmentation with Enhanced Topic Coherence ( http://arxiv.org/abs/2110.07160v1 )

ライセンス: Link先を確認
Kelvin Lo, Yuan Jin, Weicong Tan, Ming Liu, Lan Du, Wray Buntine(参考訳) 本稿では,Transformer$^2$と呼ばれるトランスフォーマー・フレームワークを用いて,ニューラルテキストセグメンテーションを行う。 事前学習されたトランスフォーマを用いたボトムレベル文エンコーダと、文埋め込みに基づく上位レベルのトランスフォーマベースのセグメンテーションモデルである。 ボトムレベルコンポーネントは、1対の教師付きnlpタスクで大きな外部コーパスから学習した事前学習知識を転送し、文書への文埋め込みをモデル化する。 文の埋め込みを前提として、上位レベルの変換器は各文の話題ラベルと同様にセグメンテーション境界を回復するように訓練される。 マルチタスクの損失と事前学習された知識を備えたtransformer$^2$は、同じセグメント内のセマンティクスコヒーレンスをよりよく捉えることができる。 実験の結果,(1)transformr$^2$ は,一般的な意味コヒーレンス尺度の観点から,最先端のテキストセグメンテーションモデルを上回ること,(2) ほとんどの場合,一対一の事前学習知識がモデル性能に寄与すること,(3) 特定の言語で事前学習されたボトムレベル文エンコーダは,特定のドメインで事前学習した文よりも優れた性能をもたらすことがわかった。

This paper proposes a transformer over transformer framework, called Transformer$^2$, to perform neural text segmentation. It consists of two components: bottom-level sentence encoders using pre-trained transformers, and an upper-level transformer-based segmentation model based on the sentence embeddings. The bottom-level component transfers the pre-trained knowledge learned from large external corpora under both single and pair-wise supervised NLP tasks to model the sentence embeddings for the documents. Given the sentence embeddings, the upper-level transformer is trained to recover the segmentation boundaries as well as the topic labels of each sentence. Equipped with a multi-task loss and the pre-trained knowledge, Transformer$^2$ can better capture the semantic coherence within the same segments. Our experiments show that (1) Transformer$^2$ manages to surpass state-of-the-art text segmentation models in terms of a commonly-used semantic coherence measure; (2) in most cases, both single and pair-wise pre-trained knowledge contribute to the model performance; (3) bottom-level sentence encoders pre-trained on specific languages yield better performance than those pre-trained on specific domains.
翻訳日:2021-10-15 14:00:19 公開日:2021-10-14
# 一般化コヒーレンスモデリングのための自己スーパービジョン目標の再検討

Rethinking Self-Supervision Objectives for Generalizable Coherence Modeling ( http://arxiv.org/abs/2110.07198v1 )

ライセンス: Link先を確認
Prathyusha Jwalapuram, Shafiq Joty and Xiang Lin(参考訳) 大規模事前学習型ニューラルモデルは様々なタスクにおいて顕著なパフォーマンスを示しているが、談話現象を適切にモデル化するコヒーレントテキストを生成する能力は評価しにくく、理解しにくい。 様々なシステムにおけるテキスト生成品質の向上が主張されていることから,機械生成テキストのコヒーレンス評価は,検討すべきコヒーレンスモデルの主要な応用の一つであると考えられる。 このような評価を行うために,タスク全体にわたってよく一般化され,棚外で使用できるモデルを実現するための,トレーニングデータと自己超越目標について検討する。 ニューラル・コヒーレンス・モデリング(neural coherence modeling)の先行研究は、主に新しいアーキテクチャの考案に焦点をあて、置換された文書タスクのペアワイズ自己スーパービジョンを通じてコヒーレントで一貫性のないテキストを区別するようにモデルを訓練した。 代わりに、基本モデルアーキテクチャを使用し、同じトレーニング体制内での最先端技術よりも大幅に改善されていることを示す。 次に,対照学習環境における負のサンプルの割合を増加させ,運動量エンコーダで符号化された大きな大域的負のキューと組み合わされた自動ハード・負のマイニングにより,さらにモデルを強化することで,より強固な自己スーパービジョン目標を設計する。 本研究では, 負サンプルの密度の増加が基本モデルを改善することを実証的に示し, 大域的負のキューを用いることで, 強負のサンプルを訓練しながらモデルをさらに改善・安定化する。 実世界のユースケースに類似したタスク非依存テストセットにおけるコヒーレンスモデルを評価し,下流アプリケーションにおけるコヒーレンス評価の大幅な改善を示す。

Although large-scale pre-trained neural models have shown impressive performances in a variety of tasks, their ability to generate coherent text that appropriately models discourse phenomena is harder to evaluate and less understood. Given the claims of improved text generation quality across various systems, we consider the coherence evaluation of machine generated text to be one of the principal applications of coherence models that needs to be investigated. We explore training data and self-supervision objectives that result in a model that generalizes well across tasks and can be used off-the-shelf to perform such evaluations. Prior work in neural coherence modeling has primarily focused on devising new architectures, and trained the model to distinguish coherent and incoherent text through pairwise self-supervision on the permuted documents task. We instead use a basic model architecture and show significant improvements over state of the art within the same training regime. We then design a harder self-supervision objective by increasing the ratio of negative samples within a contrastive learning setup, and enhance the model further through automatic hard negative mining coupled with a large global negative queue encoded by a momentum encoder. We show empirically that increasing the density of negative samples improves the basic model, and using a global negative queue further improves and stabilizes the model while training with hard negative samples. We evaluate the coherence model on task-independent test sets that resemble real-world use cases and show significant improvements in coherence evaluations of downstream applications.
翻訳日:2021-10-15 13:59:49 公開日:2021-10-14
# P-Adapters: 言語モデルからさまざまなプロンプトを持つ実情報をロバストに抽出する

P-Adapters: Robustly Extracting Factual Information from Language Models with Diverse Prompts ( http://arxiv.org/abs/2110.07280v1 )

ライセンス: Link先を確認
Benjamin Newman, Prafulla Kumar Choubey, Nazneen Rajani(参考訳) 最近の研究(例: LAMA (Petroni et al., 2019) は、Large Language Models (LLMs) から抽出された事実情報の質が、クエリに使用するプロンプトに依存していることを発見した。 異なるユーザが異なる単語を使って同じ情報に対してLLMをクエリするが、同じ正確な応答を受け取る必要があるため、この矛盾は問題となる。 本研究は,組込み層とLLMの最初の注目層の間に位置する軽量モデルであるP-アダプタを導入することで,この問題に対処することを目的とする。 LLMの埋め込みを入力とし、LLMに問い合わせるのに使用される連続的なプロンプトを出力する。 さらに,連続的なプロンプト(エキスパート)の集合を学習するMixture of Experts(MoE)モデルについて検討し,LLMを問合せするモデルを選択する。 自然言語のプロンプトを連続的なものにマッピングするために、人間に注釈されたデータに基づいてトレーニングされた別の分類器が必要である。 P-アダプタは、BERTやRoBERTaから事実情報を抽出し、追加のアノテーションを不要にすることで、より複雑なMoEモデルと互換性がある。 P-アダプタは、12~26%の精度の向上と36~50%の一貫性の向上を、自然言語クエリのみを使用するベースラインで示す。 最後に, P-Adapterを成功させる要因について検討し, LLMの本来の自然言語プロンプトの埋め込みへのアクセス, 特に質問されるエンティティペアの主題が重要な要因であると結論づける。

Recent work (e.g. LAMA (Petroni et al., 2019)) has found that the quality of the factual information extracted from Large Language Models (LLMs) depends on the prompts used to query them. This inconsistency is problematic because different users will query LLMs for the same information using different wording, but should receive the same, accurate responses regardless. In this work we aim to address this shortcoming by introducing P-Adapters: lightweight models that sit between the embedding layer and first attention layer of LLMs. They take LLM embeddings as input and output continuous prompts that are used to query the LLM. Additionally, we investigate Mixture of Experts (MoE) models that learn a set of continuous prompts ("experts") and select one to query the LLM. They require a separate classifier trained on human-annotated data to map natural language prompts to the continuous ones. P-Adapters perform comparably to the more complex MoE models in extracting factual information from BERT and RoBERTa while eliminating the need for additional annotations. P-Adapters show between 12-26% absolute improvement in precision and 36-50% absolute improvement in consistency over a baseline of only using natural language queries. Finally, we investigate what makes a P-adapter successful and conclude that access to the LLM's embeddings of the original natural language prompt, particularly the subject of the entity pair being asked about, is a significant factor.
翻訳日:2021-10-15 13:59:19 公開日:2021-10-14
# LFPT5:T5のプロンプトチューニングに基づく一貫したFew-shot言語学習フレームワーク

LFPT5: A Unified Framework for Lifelong Few-shot Language Learning Based on Prompt Tuning of T5 ( http://arxiv.org/abs/2110.07298v1 )

ライセンス: Link先を確認
Chengwei Qin and Shafiq Joty(参考訳) 生涯の言語学習に対する既存のアプローチは、新しいタスクを学ぶために多くのラベル付きデータに依存している。 人間がいくつかの例から新しいタスクを継続的に学習できることを考えると、従来のタスクを忘れずに新しいタスクをうまく一般化できることを期待している。 本稿では,この課題をより困難かつ実用的な問題としてlll(lifelong few-shot language learning)を定義し,t5のプロンプトチューニングに基づく統一フレームワークを提案する。 LFPT5と呼ばれるフレームワークはPTの強力な数発学習能力を最大限に活用し、タスクソルバとデータジェネレータとしてモデルを同時に訓練する。 同じタスクタイプの新しいドメインを学ぶ前に、lfpt5は、以前に学習したドメインの擬似(ラベル付き)サンプルを生成し、その後、新しいドメインを学ぶ際に、以前の知識を忘れないようにトレーニングされる。 さらに、kl分岐損失を最小化し、前モデルと現在のモデルとのラベル一貫性を実現する。 新しいタスクタイプに適応しながら、LFPT5は、新しいタスクのための追加のプロンプト埋め込みを含む。 広範な実験により、LFPT5は様々な種類のタスクに適用でき、異なるLFLL設定で従来のメソッドよりも大幅に優れていた。

Existing approaches to lifelong language learning rely on plenty of labeled data for learning a new task, which is hard to obtain in most real scenarios. Considering that humans can continually learn new tasks from a handful of examples, we expect the models also to be able to generalize well on new few-shot tasks without forgetting the previous ones. In this work, we define this more challenging yet practical problem as Lifelong Few-shot Language Learning (LFLL) and propose a unified framework for it based on prompt tuning of T5. Our framework called LFPT5 takes full advantage of PT's strong few-shot learning ability, and simultaneously trains the model as a task solver and a data generator. Before learning a new domain of the same task type, LFPT5 generates pseudo (labeled) samples of previously learned domains, and later gets trained on those samples to alleviate forgetting of previous knowledge as it learns the new domain. In addition, a KL divergence loss is minimized to achieve label consistency between the previous and the current model. While adapting to a new task type, LFPT5 includes and tunes additional prompt embeddings for the new task. With extensive experiments, we demonstrate that LFPT5 can be applied to various different types of tasks and significantly outperform previous methods in different LFLL settings.
翻訳日:2021-10-15 13:58:52 公開日:2021-10-14
# Aspect-Sentiment-Mul tiple-Opinion Triplet extract

Aspect-Sentiment-Mul tiple-Opinion Triplet Extraction ( http://arxiv.org/abs/2110.07303v1 )

ライセンス: Link先を確認
Fang Wang, Yuncong Li, Sheng-hua Zhong, Cunxiang Yin, Yancheng He(参考訳) Aspect Sentiment Triplet extract (ASTE) は、文章からアスペクト項(アスペクト)、感情、意見項(オピニオン)を抽出し、完全なストーリー、すなわち、議論された側面、アスペクトに対する感情、感情の原因を語ることを目的としている。 asteは魅力的なタスクであるが、asteによって抽出された1つの三重項にはアスペクトの1つの意見しか含まれていないが、文中の1つの側面には複数の対応する意見があり、1つの意見はアスペクトがこの感情を持っている理由の一部しか提供していない。 本稿では,Aspect Sentiment Multiple Opinions Triplet extract (ASMOTE)というタスクを紹介する。 ASMOTEはアスペクト、感情、複数の意見の三つ子を抽出することを目的としている。 特に、ASMOTEによって抽出された1つの三重項には、その側面に関するすべての意見が含まれており、その側面が感情を持っている正確な理由を知ることができる。 この課題に対処するためのアスペクトガイドフレームワーク(AGF)を提案する。 AGFはまずアスペクトを抽出し、その後意見と感情を予測する。 さらに、提案したシーケンスラベル注意(SLA)の助けを借りて、AGFは抽出された意見を用いた感情分類の性能を向上させる。 複数のデータセットに対する実験結果から,本手法の有効性が示された。

Aspect Sentiment Triplet Extraction (ASTE) aims to extract aspect term (aspect), sentiment and opinion term (opinion) triplets from sentences and can tell a complete story, i.e., the discussed aspect, the sentiment toward the aspect, and the cause of the sentiment. ASTE is a charming task, however, one triplet extracted by ASTE only includes one opinion of the aspect, but an aspect in a sentence may have multiple corresponding opinions and one opinion only provides part of the reason why the aspect has this sentiment, as a consequence, some triplets extracted by ASTE are hard to understand, and provide erroneous information for downstream tasks. In this paper, we introduce a new task, named Aspect Sentiment Multiple Opinions Triplet Extraction (ASMOTE). ASMOTE aims to extract aspect, sentiment and multiple opinions triplets. Specifically, one triplet extracted by ASMOTE contains all opinions about the aspect and can tell the exact reason that the aspect has the sentiment. We propose an Aspect-Guided Framework (AGF) to address this task. AGF first extracts aspects, then predicts their opinions and sentiments. Moreover, with the help of the proposed Sequence Labeling Attention(SLA), AGF improves the performance of the sentiment classification using the extracted opinions. Experimental results on multiple datasets demonstrate the effectiveness of our approach.
翻訳日:2021-10-15 13:56:59 公開日:2021-10-14
# テキスト生成タスクとしてのアスペクトカテゴリ感情分析の解法

Solving Aspect Category Sentiment Analysis as a Text Generation Task ( http://arxiv.org/abs/2110.07310v1 )

ライセンス: Link先を確認
Jian Liu, Zhiyang Teng, Leyang Cui, Hanmeng Liu, Yue Zhang(参考訳) カテゴリーの感情分析は研究の注目を集めている。 支配的な手法は、効果的なアスペクトカテゴリ固有の表現を学び、事前訓練された表現に特定の出力層を追加することで、事前学習された言語モデルを利用する。 本稿では、ACSAタスクを自然言語生成タスクにキャストし、自然言語文を用いて出力を表現することにより、事前学習された言語モデルを利用する方法を考える。 本手法は,事前学習中のタスク設定を直接追従することで,セq2seq言語モデルにおける事前学習知識のより直接的な利用を可能にする。 いくつかのベンチマーク実験から,提案手法は最良な結果をもたらすことが示され,ショット数やゼロショットの設定において大きな利点がある。

Aspect category sentiment analysis has attracted increasing research attention. The dominant methods make use of pre-trained language models by learning effective aspect category-specific representations, and adding specific output layers to its pre-trained representation. We consider a more direct way of making use of pre-trained language models, by casting the ACSA tasks into natural language generation tasks, using natural language sentences to represent the output. Our method allows more direct use of pre-trained knowledge in seq2seq language models by directly following the task setting during pre-training. Experiments on several benchmarks show that our method gives the best reported results, having large advantages in few-shot and zero-shot settings.
翻訳日:2021-10-15 13:56:33 公開日:2021-10-14
# WMDecompose:社会文化分析における単語モーバー距離の解釈特性の活用のためのフレームワーク

WMDecompose: A Framework for Leveraging the Interpretable Properties of Word Mover's Distance in Sociocultural Analysis ( http://arxiv.org/abs/2110.07330v1 )

ライセンス: Link先を確認
Mikael Brunila and Jack LaViolette(参考訳) 人文科学や社会科学におけるNLPの普及にもかかわらず、モデル性能と複雑性の進歩は、社会文化的分析の解釈可能性と説明力に関する懸念を伴う。 複雑性と妥当性のバランスをとる一般的なモデルはWord Mover's Distance (WMD)である。 表向きは解釈可能性に適合するが、wmdは最も解釈可能な側面、すなわち単語集合を別の単語集合に変換するのに必要な単語レベルの距離をしばしば捨てる方法で使われ、さらに発展してきた。 この明らかなギャップに対処するために、WMDecompose:モデルとPythonライブラリを紹介します。 1)文書レベル距離を構成語レベル距離に分解し、 2) 意味的要素を推論するために単語をクラスタリングし, 有用な語彙情報を保持し, 分析のために要約する。 社会科学的文脈におけるその可能性を説明するために、縦断的なソーシャルメディアコーパスに適用し、陰謀論と保守的なアメリカの言論の相互関係を探る。 最後に,WMDモデルの時間複雑度が高いため,大規模なデータセットから文書ペアを再現可能な方法でサンプリングする方法も提案する。

Despite the increasing popularity of NLP in the humanities and social sciences, advances in model performance and complexity have been accompanied by concerns about interpretability and explanatory power for sociocultural analysis. One popular model that balances complexity and legibility is Word Mover's Distance (WMD). Ostensibly adapted for its interpretability, WMD has nonetheless been used and further developed in ways which frequently discard its most interpretable aspect: namely, the word-level distances required for translating a set of words into another set of words. To address this apparent gap, we introduce WMDecompose: a model and Python library that 1) decomposes document-level distances into their constituent word-level distances, and 2) subsequently clusters words to induce thematic elements, such that useful lexical information is retained and summarized for analysis. To illustrate its potential in a social scientific context, we apply it to a longitudinal social media corpus to explore the interrelationship between conspiracy theories and conservative American discourses. Finally, because of the full WMD model's high time-complexity, we additionally suggest a method of sampling document pairs from large datasets in a reproducible way, with tight bounds that prevent extrapolation of unreliable results due to poor sampling practices.
翻訳日:2021-10-15 13:56:20 公開日:2021-10-14
# 遠方教師付き関係抽出のための単純で強固でロバストなベースライン

A Simple, Strong and Robust Baseline for Distantly Supervised Relation Extraction ( http://arxiv.org/abs/2110.07415v1 )

ライセンス: Link先を確認
Vipul Rathore, Kartikeya Badola, Mausam, Parag Singla(参考訳) 距離教師付き関係抽出(DS-RE)は通常、複数のインスタンスからの情報の最適な集約が重要となるマルチインスタンスマルチラベル(MI-ML)タスクとしてフレーム化される。 バッグ内アテンション(lin et al., 2016)は、このフレームワークで広く使われているアグリゲーションスキームの例である。 しかし、このスキームとは別に、ds-reの文献では、この分野の進歩の多くは、インスタンス集約のステップではなく、インスタンスエンコーディングのステップの改善に焦点を当てているため、選択する余地はない。 エンコーダとして事前学習された大規模な言語モデルを活用する最近の作業により、モデルのキャパシティの増大により、インスタンス集約ステップの柔軟性が向上する可能性がある。 本研究では,この仮説を探求し,Passage-Attと呼ばれる新しいアグリゲーション手法を考案する。 この集約スキームの下で、エンティティペアを参照するすべてのインスタンスを「インスタンスのパス」に結合し、各関係クラスに対して独立に要約する。 これらの要約は、潜在的な三重項の有効性を予測するために使われる。 BERTをパスエンコーダとしたPassage-Attは、3つの異なる設定(単言語DS、手動アノテーション付き単言語DS、多言語DS)で最先端のパフォーマンスを実現する。

Distantly supervised relation extraction (DS-RE) is generally framed as a multi-instance multi-label (MI-ML) task, where the optimal aggregation of information from multiple instances is of key importance. Intra-bag attention (Lin et al., 2016) is an example of a popularly used aggregation scheme for this framework. Apart from this scheme, however, there is not much to choose from in the DS-RE literature as most of the advances in this field are focused on improving the instance-encoding step rather than the instance-aggregation step. With recent works leveraging large pre-trained language models as encoders, the increased capacity of models might allow for more flexibility in the instance-aggregation step. In this work, we explore this hypothesis and come up with a novel aggregation scheme which we call Passage-Att. Under this aggregation scheme, we combine all instances mentioning an entity pair into a "passage of instances", which is summarized independently for each relation class. These summaries are used to predict the validity of a potential triple. We show that our Passage-Att with BERT as passage encoder achieves state-of-the-art performance in three different settings (monolingual DS, monolingual DS with manually-annotated test set, multilingual DS).
翻訳日:2021-10-15 13:55:59 公開日:2021-10-14
# ユーザ生成ノイズテキストに対するモデルロバストネスの理解

Understanding Model Robustness to User-generated Noisy Texts ( http://arxiv.org/abs/2110.07428v1 )

ライセンス: Link先を確認
Jakub N\'aplava, Martin Popel, Milan Straka, Jana Strakov\'a(参考訳) 入力ノイズに対する深層神経モデルの感度は難しい問題であることが知られている。 NLPでは、スペルエラーなどの自然発生ノイズによってモデル性能が劣化することが多い。 この問題を緩和するために、モデルは人工ノイズデータを利用する。 しかし, 発生騒音の量と種類は従来から任意に決定されてきた。 そこで,文法的誤り訂正コーパスから統計的に誤差をモデル化する。 本稿では,複数言語における最先端NLPシステムのロバスト性について,モルフォ・シンタクティック解析,エンティティ認識,ニューラルマシン翻訳,GLUEベンチマークのサブセット,読解理解などのタスクを網羅的に評価する。 また、パフォーマンス低下に対処するための2つのアプローチを比較します。 a) 当社のフレームワークが生成したノイズデータを用いたNLPモデルのトレーニング,及び b) 自然言語補正のための外部システムによる入力ノイズの低減。 コードはhttps://github.com/u fal/kazitextでリリースされる。

Sensitivity of deep-neural models to input noise is known to be a challenging problem. In NLP, model performance often deteriorates with naturally occurring noise, such as spelling errors. To mitigate this issue, models may leverage artificially noised data. However, the amount and type of generated noise has so far been determined arbitrarily. We therefore propose to model the errors statistically from grammatical-error-co rrection corpora. We present a thorough evaluation of several state-of-the-art NLP systems' robustness in multiple languages, with tasks including morpho-syntactic analysis, named entity recognition, neural machine translation, a subset of the GLUE benchmark and reading comprehension. We also compare two approaches to address the performance drop: a) training the NLP models with noised data generated by our framework; and b) reducing the input noise with external system for natural language correction. The code is released at https://github.com/u fal/kazitext.
翻訳日:2021-10-15 13:55:34 公開日:2021-10-14
# より効果的で経済的なスパースアクティベートモデルに向けて

Towards More Effective and Economic Sparsely-Activated Model ( http://arxiv.org/abs/2110.07431v1 )

ライセンス: Link先を確認
Hao Jiang, Ke Zhan, Jianwei Qu, Yongkang Wu, Zhaoye Fei, Xinyu Zhang, Lei Chen, Zhicheng Dou, Xipeng Qiu, Zikai Guo, Ruofei Lai, Jiawen Wu, Enrui Hu, Yinxia Zhang, Yantao Jia, Fan Yu, Zhao Cao(参考訳) スパースアクティベートされたモデルは、大規模パラメータと比較的低い計算コストを通じて自然言語処理において大きな成功を収め、徐々に非常に大きなモデルを訓練し実装するための実現可能な技術となった。 コミュニケーションコストの限界のため、訓練や推論において、複数の専門家の活性化は手頃な価格ではない。 したがって、以前の作業は通常、追加の通信コストを軽減するために、一度に1人の専門家だけを活性化する。 このようなルーティング機構はモデル性能の上限を制限する。 本稿では,まず,活性化専門家の増加によってモデル性能が向上し,スパース比が向上する現象について検討する。 演算コストを増大させることなくアクティベートされた専門家の数を増やすために,同一デバイス(GPU)で複数の専門家を活性化する効率的な階層的ルーティング機構であるSAM(Switch and Mixture)ルーティングを提案する。 提案手法は,非常に大きなスパースモデルのトレーニングに光を当て,実験により,我々のモデルが大幅な効率向上を達成できることを示す。

The sparsely-activated models have achieved great success in natural language processing through large-scale parameters and relatively low computational cost, and gradually become a feasible technique for training and implementing extremely large models. Due to the limit of communication cost, activating multiple experts is hardly affordable during training and inference. Therefore, previous work usually activate just one expert at a time to alleviate additional communication cost. Such routing mechanism limits the upper bound of model performance. In this paper, we first investigate a phenomenon that increasing the number of activated experts can boost the model performance with higher sparse ratio. To increase the number of activated experts without an increase in computational cost, we propose SAM (Switch and Mixture) routing, an efficient hierarchical routing mechanism that activates multiple experts in a same device (GPU). Our methods shed light on the training of extremely large sparse models and experiments prove that our models can achieve significant performance gain with great efficiency improvement.
翻訳日:2021-10-15 13:55:22 公開日:2021-10-14
# MReD:制御可能なテキスト生成のためのメタレビューデータセット

MReD: A Meta-Review Dataset for Controllable Text Generation ( http://arxiv.org/abs/2110.07474v1 )

ライセンス: Link先を確認
Chenhui Shen, Liying Cheng, Ran Zhou, Lidong Bing, Yang You, Luo Si(参考訳) 制御可能なテキスト要約のために既存のテキスト生成データセットを直接使用する場合、ドメイン知識がないという問題に直面しており、制御可能なアスペクトは限られている。典型例は、制御可能なテキスト要約のためにCNN/Daily Mailデータセットを使用する場合、要約文の強調に関するガイド付き情報は存在しない。 より有用なテキストジェネレータは、入力テキストと制御変数の両方を利用して生成をガイドする必要がある。 このvi-sionに動機づけられて,本稿ではmredという新しいテキスト生成データセットを紹介する。 新しいデータセットは7,089のメタレビューで構成され、45kのメタレビュー文はすべて、抽象、強度、決定などを含む慎重に定義された9つのカテゴリの1つとして手動で注釈付けされる。 そこで本研究では,本手法を用いた抽出モデルと抽象モデルの両方における制御生成手法を提案する。 様々な設定を探索し、制御入力に関してモデルの振る舞いをアナライズすることで、データセットの課題と価値を実証する。 MReDにより、メタレビューコーパスをよりよく理解し、制御可能なテキスト生成のための研究室を拡大できる。

When directly using existing text generation datasets for controllable generation, we are facing the problem of not having the domain knowledge and thus the aspects that could be controlled are limited.A typical example is when using CNN/Daily Mail dataset for controllable text summarization, there is no guided information on the emphasis of summary sentences. A more useful text generator should leverage both the input text and control variables to guide the generation, which can only be built with deep understanding of the domain knowledge. Motivated by this vi-sion, our paper introduces a new text generation dataset, named MReD. Our new dataset consists of 7,089 meta-reviews and all its 45k meta-review sentences are manually annotated as one of the carefully defined 9 categories, including abstract, strength, decision, etc. We present experimental results on start-of-the-art summarization models, and propose methods for controlled generation on both extractive and abstractive models using our annotated data. By exploring various settings and analaysing the model behavior with respect to the control inputs, we demonstrate the challenges and values of our dataset. MReD allows us to have a better understanding of the meta-review corpora and enlarge the research room for controllable text generation.
翻訳日:2021-10-15 13:54:00 公開日:2021-10-14
# 知識グラフを用いた会話推薦のための大規模事前学習言語モデル

Finetuning Large-Scale Pre-trained Language Models for Conversational Recommendation with Knowledge Graph ( http://arxiv.org/abs/2110.07477v1 )

ライセンス: Link先を確認
Lingzhi Wang, Huang Hu, Lei Sha, Can Xu, Kam-Fai Wong, Daxin Jiang(参考訳) 本稿では,会話推薦システム(CRS)のための事前学習言語モデル(PLM)に基づくフレームワーク RID を提案する。 RIDは、DialoGPTなどの大規模PLMとRGCN(Relational Graph Convolutional Network)を併用して、アイテム指向の知識グラフのノード表現を符号化する。 前者はplmの強力な言語生成能力に基づく多種多様な対話応答の生成を目標とし、後者は構造的知識ベースによりよいノード埋め込みを学習することでアイテム推薦を促進する。 対話生成とアイテムレコメンデーションの2つのモジュールをplmsベースのフレームワークに統合するために、plmの生成語彙を追加項目語彙を含むように拡張し、生成プロセスで目標項目を推奨するタイミングを制御する語彙ポインタを導入する。 ベンチマークデータセットReDialでの大規模な実験では、RIDは対話評価とレコメンデーションの両方において最先端の手法よりも大幅に優れていた。

In this paper, we present a pre-trained language model (PLM) based framework called RID for conversational recommender system (CRS). RID finetunes the large-scale PLMs such as DialoGPT, together with a pre-trained Relational Graph Convolutional Network (RGCN) to encode the node representations of an item-oriented knowledge graph. The former aims to generate fluent and diverse dialogue responses based on the strong language generation ability of PLMs, while the latter is to facilitate the item recommendation by learning better node embeddings on the structural knowledge base. To unify two modules of dialogue generation and item recommendation into a PLMs-based framework, we expand the generation vocabulary of PLMs to include an extra item vocabulary, and introduces a vocabulary pointer to control when to recommend target items in the generation process. Extensive experiments on the benchmark dataset ReDial show RID significantly outperforms the state-of-the-art methods on both evaluations of dialogue and recommendation.
翻訳日:2021-10-15 13:53:38 公開日:2021-10-14
# ネスト名前付きエンティティ認識のためのトリアフィン機構を用いた異種因子の融合

Fusing Heterogeneous Factors with Triaffine Mechanism for Nested Named Entity Recognition ( http://arxiv.org/abs/2110.07480v1 )

ライセンス: Link先を確認
Zheng Yuan, Chuanqi Tan, Songfang Huang, Fei Huang(参考訳) ネストされたエンティティは構成性のため多くのドメインで観察されるが、広く使用されているシーケンスラベリングフレームワークでは容易に認識できない。 自然な解決策は、タスクをスパン分類問題として扱うことである。 スパン表現と分類の性能を高めるために、トークン、ラベル、境界、関連するスパンを含む異質な要素を参照し、異なるフォーマットの有用な情報をすべて効果的に統合することが重要である。 これらの異種因子を融合させるため, トリアフィンの注意と得点を含む新規なトリアフィン機構を提案し, 表現と分類の段階において複数の因子と相互作用する。 実験の結果,提案手法は, ACE 2004, ACE 2005, GENIA, KBP2017の4つのNERデータセットに対して, 最先端のF1スコアを得ることができた。

Nested entities are observed in many domains due to their compositionality, which cannot be easily recognized by the widely-used sequence labeling framework. A natural solution is to treat the task as a span classification problem. To increase performance on span representation and classification, it is crucial to effectively integrate all useful information of different formats, which we refer to heterogeneous factors including tokens, labels, boundaries, and related spans. To fuse these heterogeneous factors, we propose a novel triaffine mechanism including triaffine attention and scoring, which interacts with multiple factors in both the stages of representation and classification. Experiments results show that our proposed method achieves the state-of-the-art F1 scores on four nested NER datasets: ACE2004, ACE2005, GENIA, and KBP2017.
翻訳日:2021-10-15 13:53:19 公開日:2021-10-14
# 層幅予測とDeep Supervisionを用いた非自己回帰翻訳

Non-Autoregressive Translation with Layer-Wise Prediction and Deep Supervision ( http://arxiv.org/abs/2110.07515v1 )

ライセンス: Link先を確認
Chenyang Huang, Hao Zhou, Osmar R. Za\"iane, Lili Mou, Lei Li(参考訳) 高翻訳品質を維持しながら効率的な推論を行うには? トランスフォーマーなどの既存のニューラルマシン翻訳モデルは、高い性能を実現しているが、単語を1つずつデコードすることは非効率である。 最近の非自己回帰翻訳モデルは推論を高速化するが、その品質は劣っている。 本稿では,機械翻訳のための高効率・高性能モデルであるdslpを提案する。 重要な洞察は、Deep Supervisionで非自己回帰トランスフォーマーをトレーニングし、追加のレイヤワイド予測を提供することだ。 4つの翻訳タスク(wmt'14 en-deとwmt'16 en-ro)について広範な実験を行った。 その結果,各ベースモデルと比較してbleuスコアが一貫して向上することがわかった。 特に、最良の変種は3つの翻訳タスクで自己回帰モデルを上回るが、推論の効率は14.8倍である。

How do we perform efficient inference while retaining high translation quality? Existing neural machine translation models, such as Transformer, achieve high performance, but they decode words one by one, which is inefficient. Recent non-autoregressive translation models speed up the inference, but their quality is still inferior. In this work, we propose DSLP, a highly efficient and high-performance model for machine translation. The key insight is to train a non-autoregressive Transformer with Deep Supervision and feed additional Layer-wise Predictions. We conducted extensive experiments on four translation tasks (both directions of WMT'14 EN-DE and WMT'16 EN-RO). Results show that our approach consistently improves the BLEU scores compared with respective base models. Specifically, our best variant outperforms the autoregressive model on three translation tasks, while being 14.8 times more efficient in inference.
翻訳日:2021-10-15 13:53:05 公開日:2021-10-14
# コラボレーティブデコードによる意見比較要約

Comparative Opinion Summarization via Collaborative Decoding ( http://arxiv.org/abs/2110.07520v1 )

ライセンス: Link先を確認
Hayate Iso, Xiaolan Wang, Yoshihiko Suhara(参考訳) 意見要約は、1つのエンティティ(例えば、ホテルや製品など)に対する複数のレビューの一般的な意見を反映した要約を作成することに重点を置いているが、生成された要約は、特定のエンティティに関する一般的な情報と簡潔な情報を提供するが、その情報は、ユーザが複数のエンティティを比較するのに役に立たないかもしれない。 したがって、ユーザは"どちらを選ぶべきか"という疑問に苦慮するかも知れません。 本稿では,異なるエンティティから与えられた2つのレビュー集合から2つの対比要約と1つの共通要約を生成する「em比較意見要約」タスクを提案する。 比較要約フレームワークCoCoSumを開発し、コントラストおよび共通要約を生成するために共同で使用される2つの数ショット要約モデルからなる。 新たに作成されたベンチマークCoCoTripの実験結果は、CoCoSumが最先端の意見要約モデルよりも高品質で共通的な要約を生成できることを示している。

Opinion summarization focuses on generating summaries that reflect popular opinions of multiple reviews for a single entity (e.g., a hotel or a product.) While generated summaries offer general and concise information about a particular entity, the information may be insufficient to help the user compare multiple entities. Thus, the user may still struggle with the question "Which one should I pick?" In this paper, we propose a {\em comparative opinion summarization} task, which is to generate two contrastive summaries and one common summary from two given sets of reviews from different entities. We develop a comparative summarization framework CoCoSum, which consists of two few-shot summarization models that are jointly used to generate contrastive and common summaries. Experimental results on a newly created benchmark CoCoTrip show that CoCoSum can produce high-quality contrastive and common summaries than state-of-the-art opinion summarization models.
翻訳日:2021-10-15 13:52:50 公開日:2021-10-14
# オープンドメイン経路検索のための表現デカップリング

Representation Decoupling for Open-Domain Passage Retrieval ( http://arxiv.org/abs/2110.07524v1 )

ライセンス: Link先を確認
Bohong Wu, Zhuosheng Zhang, Jinyuan Wang, Hai Zhao(参考訳) コントラスト学習(cl)による密閉通路表現の訓練は,open-domain passage retrieval (odpr) に有効であることが示されている。 最近の研究は、サンプリング戦略の改善や追加事前学習により、このCLフレームワークの最適化に重点を置いている。 従来の研究と異なり、この研究は、複数の意味論的異なる文で節を整理できるという観察を動機として、ODPRにおける広く使われているCL戦略における紛争の影響を研究に力を入れており、そのような節を統一された密集ベクトルとしてモデル化することは最適ではない。 このような紛争を矛盾紛争と呼ぶ。 そこで本研究では,コンフリクトを媒介する特定のcl戦略を設計,文脈的文レベルでの表現を分離し,表現分離法を用いて解くことを提案する。 自然問題,トリビアqa,スクワッドなど,広く使用されているデータセットに関する実験により,特に競合問題に厳しいデータセットにおいて,本手法の有効性が検証された。 また,提案手法はデータセット間の良好な転送可能性を示し,コントラスト競合を媒介する考え方をさらに支持する。

Training dense passage representations via contrastive learning (CL) has been shown effective for Open-Domain Passage Retrieval (ODPR). Recent studies mainly focus on optimizing this CL framework by improving the sampling strategy or extra pretraining. Different from previous studies, this work devotes itself to investigating the influence of conflicts in the widely used CL strategy in ODPR, motivated by our observation that a passage can be organized by multiple semantically different sentences, thus modeling such a passage as a unified dense vector is not optimal. We call such conflicts Contrastive Conflicts. In this work, we propose to solve it with a representation decoupling method, by decoupling the passage representations into contextual sentence-level ones, and design specific CL strategies to mediate these conflicts. Experiments on widely used datasets including Natural Questions, Trivia QA, and SQuAD verify the effectiveness of our method, especially on the dataset where the conflicting problem is severe. Our method also presents good transferability across the datasets, which further supports our idea of mediating Contrastive Conflicts.
翻訳日:2021-10-15 13:52:35 公開日:2021-10-14
# Delphi: マシン倫理とノームを目指して

Delphi: Towards Machine Ethics and Norms ( http://arxiv.org/abs/2110.07574v1 )

ライセンス: Link先を確認
Liwei Jiang, Jena D. Hwang, Chandra Bhagavatula, Ronan Le Bras, Maxwell Forbes, Jon Borchardt, Jenny Liang, Oren Etzioni, Maarten Sap, Yejin Choi(参考訳) 機械に倫理的な振る舞いを教えるのに何が必要でしょうか。 広義の倫理的規則は簡単に言うように思えるが("thou shalt not kill")、現実の状況にそのような規則を適用することははるかに複雑である。 例えば、"helping a friend"は一般的には良いことですが、"helping a friend spread fake news"はそうではありません。 We identify four underlying challenges towards machine ethics and norms: (1) an understanding of moral precepts and social norms; (2) the ability to perceive real-world situations visually or by reading natural language descriptions; (3) commonsense reasoning to anticipate the outcome of alternative actions in different contexts; (4) most importantly, the ability to make ethical judgments given the interplay between competing values and their grounding in different contexts (e.g., the right to freedom of expression vs. preventing the spread of fake news). 我々の論文は、ディープラーニングパラダイムの中でこれらの問題に取り組み始めます。 私たちのプロトタイプモデルであるdelphiは、言語ベースの常識的推論の強い期待を示し、92.1%の精度で人間によって検証されている。 これは52.3%のGPT-3のゼロショット性能とは対照的であり、大規模だけでは人間の値を持つ事前学習されたニューラルネットワークモデルには耐えられないことを示唆している。 そこで本研究では,機械用にカスタマイズされた道徳教科書であるcommonsense norm bankを提案する。 今後の研究のための新たなリソースとベースラインのパフォーマンスに加えて、我々の研究は、普遍的な人的価値と個人的価値の差別化、異なる道徳的枠組みのモデリング、機械倫理への説明可能な一貫したアプローチなど、いくつかの重要なオープンな研究課題に導く新たな洞察を提供する。

What would it take to teach a machine to behave ethically? While broad ethical rules may seem straightforward to state ("thou shalt not kill"), applying such rules to real-world situations is far more complex. For example, while "helping a friend" is generally a good thing to do, "helping a friend spread fake news" is not. We identify four underlying challenges towards machine ethics and norms: (1) an understanding of moral precepts and social norms; (2) the ability to perceive real-world situations visually or by reading natural language descriptions; (3) commonsense reasoning to anticipate the outcome of alternative actions in different contexts; (4) most importantly, the ability to make ethical judgments given the interplay between competing values and their grounding in different contexts (e.g., the right to freedom of expression vs. preventing the spread of fake news). Our paper begins to address these questions within the deep learning paradigm. Our prototype model, Delphi, demonstrates strong promise of language-based commonsense moral reasoning, with up to 92.1% accuracy vetted by humans. This is in stark contrast to the zero-shot performance of GPT-3 of 52.3%, which suggests that massive scale alone does not endow pre-trained neural language models with human values. Thus, we present Commonsense Norm Bank, a moral textbook customized for machines, which compiles 1.7M examples of people's ethical judgments on a broad spectrum of everyday situations. In addition to the new resources and baseline performances for future research, our study provides new insights that lead to several important open research questions: differentiating between universal human values and personal values, modeling different moral frameworks, and explainable, consistent approaches to machine ethics.
翻訳日:2021-10-15 13:52:15 公開日:2021-10-14
# (参考訳) NeRS: 野生でのスパークビュー3次元再構成のためのニューラルリフレクタンス表面 [全文訳有]

NeRS: Neural Reflectance Surfaces for Sparse-view 3D Reconstruction in the Wild ( http://arxiv.org/abs/2110.07604v1 )

ライセンス: CC BY-SA 4.0
Jason Y. Zhang, Gengshan Yang, Shubham Tulsiani, Deva Ramanan(参考訳) 最近の歴史では、Neural Radiance Fields (NeRF)を通じて一般化された幾何学と放射の暗黙的な表現を探求する研究が著しく増えている。 このような作品は基本的には(単純で)体積的な占有力の表現に基づいており、透明な物体や大気汚染物質を含む多様なシーン構造をモデル化することができる。 しかし、現実世界のシーンの大部分はよく定義された表面で構成されているため、ニューラルリフレクタンス・サーフェス (Neural Reflectance Surfaces, NeRS) と呼ばれる暗黙的なモデルの類似性を導入する。 NeRSは、球に微分される閉じた表面の神経形状の表現を学び、水密な再構成を保証する。 さらに重要なことは、表面のパラメータ化により、NeRSは視野依存的な外観を環境照明、拡散色(アルベド)、および特異な「輝き」に分解する双方向表面反射関数(BRDF)を学習することができることである。 最後に、人工的なシーンで結果を図示したり、ラボ内で操作する代わりに、オンラインマーケットプレースから商品を販売するために、マルチビュー画像の新しいデータセットを組み立てます。 このような「野生の」マルチビュー画像セットは、未知/粗いカメラ推定を持つ少数のビューを含む多くの課題を提起する。 このようなデータから学習可能な表面ベースニューラル再構成は,体積的ニューラルレンダリングに基づく再構成よりも優れていることを示す。 私たちはNeRSが、現実世界の形状、素材、照明のスケーラブルで高品質なライブラリを構築するための第一歩になることを期待しています。 コードとビデオを視覚化したプロジェクトページはhttps://jasonyzhang. com/ners}{jasonyzhang.com/ners にある。

Recent history has seen a tremendous growth of work exploring implicit representations of geometry and radiance, popularized through Neural Radiance Fields (NeRF). Such works are fundamentally based on a (implicit) {\em volumetric} representation of occupancy, allowing them to model diverse scene structure including translucent objects and atmospheric obscurants. But because the vast majority of real-world scenes are composed of well-defined surfaces, we introduce a {\em surface} analog of such implicit models called Neural Reflectance Surfaces (NeRS). NeRS learns a neural shape representation of a closed surface that is diffeomorphic to a sphere, guaranteeing water-tight reconstructions. Even more importantly, surface parameterizations allow NeRS to learn (neural) bidirectional surface reflectance functions (BRDFs) that factorize view-dependent appearance into environmental illumination, diffuse color (albedo), and specular "shininess." Finally, rather than illustrating our results on synthetic scenes or controlled in-the-lab capture, we assemble a novel dataset of multi-view images from online marketplaces for selling goods. Such "in-the-wild" multi-view image sets pose a number of challenges, including a small number of views with unknown/rough camera estimates. We demonstrate that surface-based neural reconstructions enable learning from such data, outperforming volumetric neural rendering-based reconstructions. We hope that NeRS serves as a first step toward building scalable, high-quality libraries of real-world shape, materials, and illumination. The project page with code and video visualizations can be found at https://jasonyzhang. com/ners}{jasonyzhang.com/ners .
翻訳日:2021-10-15 13:50:28 公開日:2021-10-14
# ib-gan:クラス不均衡下における多変量時系列分類の統一的アプローチ

IB-GAN: A Unified Approach for Multivariate Time Series Classification under Class Imbalance ( http://arxiv.org/abs/2110.07460v1 )

ライセンス: Link先を確認
Grace Deng, Cuize Han, Tommaso Dreossi, Clarence Lee, David S. Matteson(参考訳) 強クラス不均衡を持つ大規模多変量時系列の分類は実世界の応用において重要な課題である。 クラスウェイト、オーバーサンプリング、またはパラメトリックデータ拡張の標準的な方法は、関心の少数派を予測するための重要な改善をもたらすとは限らない。 GAN(Generative Adversarial Networks)による非パラメトリックデータ拡張は、有望なソリューションを提供する。 本稿では,データ拡張と分類を1段階のプロセスで結合する新しい手法であるImputation Balanced GAN(IB-GAN)を提案する。 ib-ganは、ホワイトノイズよりもランダムにマスクされたベクターから高品質なサンプルを生成するためにインプテーションと再サンプリング技術を使用し、実および合成サンプルのクラスバランスによる分類を強化している。 Imputation hyperparameter $p_{miss}$は、ジェネレータ計算によって導入された革新をチューニングすることで、分類器変数の正規化を可能にする。 IB-GANは、訓練とモデルに依存しないため、ディープラーニングの分類器とジェネレータとをペアにすることで、観測されていないクラスの精度を高めることができる。 オープンソースのUCRデータとプロプライエタリな90K製品データセットに関する実証実験は、最先端のパラメトリックとGANベースラインに対して大きなパフォーマンス向上を示している。

Classification of large multivariate time series with strong class imbalance is an important task in real-world applications. Standard methods of class weights, oversampling, or parametric data augmentation do not always yield significant improvements for predicting minority classes of interest. Non-parametric data augmentation with Generative Adversarial Networks (GANs) offers a promising solution. We propose Imputation Balanced GAN (IB-GAN), a novel method that joins data augmentation and classification in a one-step process via an imputation-balancing approach. IB-GAN uses imputation and resampling techniques to generate higher quality samples from randomly masked vectors than from white noise, and augments classification through a class-balanced set of real and synthetic samples. Imputation hyperparameter $p_{miss}$ allows for regularization of classifier variability by tuning innovations introduced via generator imputation. IB-GAN is simple to train and model-agnostic, pairing any deep learning classifier with a generator-discrimina tor duo and resulting in higher accuracy for under-observed classes. Empirical experiments on open-source UCR data and proprietary 90K product dataset show significant performance gains against state-of-the-art parametric and GAN baselines.
翻訳日:2021-10-15 13:28:49 公開日:2021-10-14
# ガウス過程を用いた雑音データからのマニフォールド推定

Inferring Manifolds From Noisy Data Using Gaussian Processes ( http://arxiv.org/abs/2110.07478v1 )

ライセンス: Link先を確認
David B Dunson and Nan Wu(参考訳) 複雑なデータセットを分析する際には、高次元観測の基礎となる低次元構造を推測することがしばしば重要である。 非線形構造の柔軟なクラスとして、リーマン多様体にフォーカスすることが一般的である。 ほとんどの既存の多様体学習アルゴリズムは、観測空間における多様体の推定や元のデータをデノベーションするために多様体を用いることなく、元のデータを低次元座標に置き換えている。 本稿では,データ点間の推定多様体の補間を可能にする新しい手法を提案する。 提案手法は, 多様体上の雑音試料から構築した局所共分散行列の新たな理論的性質を動機とする。 その結果、大域多様体再構成問題を局所回帰問題に変換することができ、確率的多様体再構成にガウス過程を適用することができる。 アルゴリズムを正当化する理論に加えて、性能を説明するためにシミュレーションおよび実データ例を提供する。

In analyzing complex datasets, it is often of interest to infer lower dimensional structure underlying the higher dimensional observations. As a flexible class of nonlinear structures, it is common to focus on Riemannian manifolds. Most existing manifold learning algorithms replace the original data with lower dimensional coordinates without providing an estimate of the manifold in the observation space or using the manifold to denoise the original data. This article proposes a new methodology for addressing these problems, allowing interpolation of the estimated manifold between fitted data points. The proposed approach is motivated by novel theoretical properties of local covariance matrices constructed from noisy samples on a manifold. Our results enable us to turn a global manifold reconstruction problem into a local regression problem, allowing application of Gaussian processes for probabilistic manifold reconstruction. In addition to theory justifying the algorithm, we provide simulated and real data examples to illustrate the performance.
翻訳日:2021-10-15 13:28:28 公開日:2021-10-14
# spoken objectnet:バイアス制御型音声キャプションデータセット

Spoken ObjectNet: A Bias-Controlled Spoken Caption Dataset ( http://arxiv.org/abs/2110.07575v1 )

ライセンス: Link先を確認
Ian Palmer, Andrew Rouditchenko, Andrei Barbu, Boris Katz, James Glass(参考訳) 視覚的に接地した音声言語データセットは、モデルが非常に弱い監督の下でクロスモーダル対応を学習できる。 しかし、現代の視聴覚データセットには、そのデータに基づいて訓練されたモデルの現実世界のパフォーマンスを損なうバイアスが含まれている。 Spoken ObjectNetは、これらのバイアスの一部を除去し、実際のシナリオでモデルがいかに効果的に機能するかをよりよく評価する方法を提供する。 このデータセットは、imagenetに存在するものと同様のイメージクラスを持つバイアス制御イメージデータセットであるobjectnetに拡張される。 自動言語モデルチェックを含む、キャプション品質を改善するいくつかのメソッドを特徴とする、データ収集パイプラインについて詳しく説明します。 最後に,画像検索と音声検索に関する基本結果を示す。 これらの結果は、モデルが学習した他のデータセットのバイアスにより、他のデータセットでトレーニングされ、その後、音声によるobjectnetで評価されたモデルのパフォーマンスが低くなることを示している。 また,データ転送設定ではなく,データセット制御による性能低下が原因であることを示す。

Visually-grounded spoken language datasets can enable models to learn cross-modal correspondences with very weak supervision. However, modern audio-visual datasets contain biases that undermine the real-world performance of models trained on that data. We introduce Spoken ObjectNet, which is designed to remove some of these biases and provide a way to better evaluate how effectively models will perform in real-world scenarios. This dataset expands upon ObjectNet, which is a bias-controlled image dataset that features similar image classes to those present in ImageNet. We detail our data collection pipeline, which features several methods to improve caption quality, including automated language model checks. Lastly, we show baseline results on image retrieval and audio retrieval tasks. These results show that models trained on other datasets and then evaluated on Spoken ObjectNet tend to perform poorly due to biases in other datasets that the models have learned. We also show evidence that the performance decrease is due to the dataset controls, and not the transfer setting.
翻訳日:2021-10-15 13:28:15 公開日:2021-10-14
# 微細な種間分類のためのトーチビジョン事前訓練モデルに関する総合的研究

A Comprehensive Study on Torchvision Pre-trained Models for Fine-grained Inter-species Classification ( http://arxiv.org/abs/2110.07097v1 )

ライセンス: Link先を確認
Feras Albardi, H M Dipu Kabir, Md Mahbub Islam Bhuiyan, Parham M. Kebria, Abbas Khosravi, Saeid Nahavandi(参考訳) 本研究の目的は,PyTorchライブラリで利用可能なTorchvisionパッケージで提供される,さまざまな事前学習モデルを検討することである。 きめ細かい画像分類における効果について検討する。 転送学習は、不十分なトレーニングデータで非常に優れたパフォーマンスを達成する効果的な方法である。 多くの現実の状況では、ディープニューラルネットワークモデルを効率的にトレーニングするために必要な十分なデータを収集できない。 トランスファーラーニングモデルは大規模なデータセットで事前トレーニングされており、トレーニング時間を大幅に短縮した小さなデータセットで優れたパフォーマンスを得ることができる。 Torchvisionパッケージは、小さなデータセットにTransfer Learningを適用するための多くのモデルを提供します。 したがって、研究者は良いモデルを選ぶためのガイドラインを必要とするかもしれない。 猿10種, 鳥225種, 果実360種, オックスフォード102花の4つの異なるデータセットを用いて, 事前学習モデルについて検討した。 これらのデータセットには、異なる解像度、クラス番号、異なる達成可能な精度の画像がある。 また,通常の完全連結層と脊柱完全連結層を用いて,脊柱ネットの有効性について検討した。 Spinalの完全接続層は、ほとんどの状況でパフォーマンスが向上する。 同じデータセットの異なるモデルに対して、公平な比較のために同じ拡張を適用する。 本稿では,将来のコンピュータビジョン研究者が適切なトランスファー学習モデルを選択するのに役立つかもしれない。

This study aims to explore different pre-trained models offered in the Torchvision package which is available in the PyTorch library. And investigate their effectiveness on fine-grained images classification. Transfer Learning is an effective method of achieving extremely good performance with insufficient training data. In many real-world situations, people cannot collect sufficient data required to train a deep neural network model efficiently. Transfer Learning models are pre-trained on a large data set, and can bring a good performance on smaller datasets with significantly lower training time. Torchvision package offers us many models to apply the Transfer Learning on smaller datasets. Therefore, researchers may need a guideline for the selection of a good model. We investigate Torchvision pre-trained models on four different data sets: 10 Monkey Species, 225 Bird Species, Fruits 360, and Oxford 102 Flowers. These data sets have images of different resolutions, class numbers, and different achievable accuracies. We also apply their usual fully-connected layer and the Spinal fully-connected layer to investigate the effectiveness of SpinalNet. The Spinal fully-connected layer brings better performance in most situations. We apply the same augmentation for different models for the same data set for a fair comparison. This paper may help future Computer Vision researchers in choosing a proper Transfer Learning model.
翻訳日:2021-10-15 13:27:32 公開日:2021-10-14
# 脆い解釈:TCAVおよび他の概念に基づく敵攻撃に対する説明可能性ツールの脆弱性

Brittle interpretations: The Vulnerability of TCAV and Other Concept-based Explainability Tools to Adversarial Attack ( http://arxiv.org/abs/2110.07120v1 )

ライセンス: Link先を確認
Davis Brown and Henry Kvinge(参考訳) モデル説明可能性の手法は、深層学習の公平性と健全性をテストするためにますます重要になっている。 モデルアクティベーションにおける人間解釈可能な概念を表現するために,一連の例を用いた説明可能性技術が開発されている。 本研究では,これらの説明可能性手法が,解析対象のモデルと同じ脆弱性を被る可能性があることを示す。 この現象を、ディープラーニングモデルの説明可能性に関する2つのよく知られた概念ベースアプローチ(tcatvとfaceted feature visualization)で実証する。 研究されている概念の例を慎重に摂動することで,シマウマのイメージを識別する上で,ストライプが重要な要因ではないことを示すなど,解釈可能性手法のアウトプットを根本的に変えることができることを示す。 私たちの研究は、安全クリティカルなアプリケーションでは、機械学習パイプラインだけでなく、モデル解釈プロセスにもセキュリティが必要であるという事実を強調しています。

Methods for model explainability have become increasingly critical for testing the fairness and soundness of deep learning. A number of explainability techniques have been developed which use a set of examples to represent a human-interpretable concept in a model's activations. In this work we show that these explainability methods can suffer the same vulnerability to adversarial attacks as the models they are meant to analyze. We demonstrate this phenomenon on two well-known concept-based approaches to the explainability of deep learning models: TCAV and faceted feature visualization. We show that by carefully perturbing the examples of the concept that is being investigated, we can radically change the output of the interpretability method, e.g. showing that stripes are not an important factor in identifying images of a zebra. Our work highlights the fact that in safety-critical applications, there is need for security around not only the machine learning pipeline but also the model interpretation process.
翻訳日:2021-10-15 13:25:55 公開日:2021-10-14
# DeepSSM: 画像から形状のディープラーニングモデルのための青写真

DeepSSM: A Blueprint for Image-to-Shape Deep Learning Models ( http://arxiv.org/abs/2110.07152v1 )

ライセンス: Link先を確認
Riddhish Bhalodia, Shireen Elhabian, Jadie Adams, Wenzheng Tao, Ladislav Kavan, Ross Whitaker(参考訳) 統計的形状モデリング(SSM)は、医学画像から生成される形状の集団の解剖学的変異を特徴付ける。 SSMは、形状コホート中のサンプル間の一貫した形状表現を必要とする。 この表現を確立するには、解剖学のセグメンテーション、再サンプリング、登録、非線形最適化を含む処理パイプラインが含まれる。 これらの形状表現は、異なる用途におけるその後の分析を容易にする低次元形状記述子を抽出するために使われる。 しかし、画像データからこれらの形状記述子を取得する現在のプロセスは、人間と計算資源に依存しており、関心のある解剖学を分割するのにドメインの専門知識を必要とする。 さらに、トレーニング済み/既存の形状モデルを使用して、新しい画像データに対して形状記述子を推論するために、この同じ課税パイプラインを繰り返す必要がある。 本稿では,画像から低次元形状記述子およびそれに関連する形状表現への機能マッピングを学習する深層学習に基づくフレームワークであるdeepssmを提案する。 既存の形状モデルを用いてトレーニングしたDeepSSMは、重くて手動の事前処理とセグメンテーションを回避し、計算時間を大幅に改善し、完全なエンドツーエンドのSSMアプリケーションに実行可能なソリューションとなる。 さらに,データ不足に対処するためのモデルベースデータ提供戦略を提案する。 最後に, 3つの医療データセットと下流臨床応用を用いて, 損失機能が異なる2種類のdeepssmのアーキテクチャ的変種を提示し, 解析した。 実験では、deepssmが定量的およびアプリケーション駆動のダウンストリームタスクの両方において、最先端のssmと同等またはそれ以上のパフォーマンスを示す。 したがって、DeepSSMはディープラーニングベースのイメージ・ツー・シェイプモデルのための包括的な青写真を提供することを目指している。

Statistical shape modeling (SSM) characterizes anatomical variations in a population of shapes generated from medical images. SSM requires consistent shape representation across samples in shape cohort. Establishing this representation entails a processing pipeline that includes anatomy segmentation, re-sampling, registration, and non-linear optimization. These shape representations are then used to extract low-dimensional shape descriptors that facilitate subsequent analyses in different applications. However, the current process of obtaining these shape descriptors from imaging data relies on human and computational resources, requiring domain expertise for segmenting anatomies of interest. Moreover, this same taxing pipeline needs to be repeated to infer shape descriptors for new image data using a pre-trained/existing shape model. Here, we propose DeepSSM, a deep learning-based framework for learning the functional mapping from images to low-dimensional shape descriptors and their associated shape representations, thereby inferring statistical representation of anatomy directly from 3D images. Once trained using an existing shape model, DeepSSM circumvents the heavy and manual pre-processing and segmentation and significantly improves the computational time, making it a viable solution for fully end-to-end SSM applications. In addition, we introduce a model-based data-augmentation strategy to address data scarcity. Finally, this paper presents and analyzes two different architectural variants of DeepSSM with different loss functions using three medical datasets and their downstream clinical application. Experiments showcase that DeepSSM performs comparably or better to the state-of-the-art SSM both quantitatively and on application-driven downstream tasks. Therefore, DeepSSM aims to provide a comprehensive blueprint for deep learning-based image-to-shape models.
翻訳日:2021-10-15 13:25:40 公開日:2021-10-14
# 双対分布推定による自己教師付き学習

Self-Supervised Learning by Estimating Twin Class Distributions ( http://arxiv.org/abs/2110.07402v1 )

ライセンス: Link先を確認
Feng Wang, Tao Kong, Rufeng Zhang, Huaping Liu and Hang Li(参考訳) 本稿では,大規模未ラベルデータセットをエンドツーエンドに分類し,自己教師付き表現学習手法TWISTを提案する。 2つの拡張画像のツインクラス分布を生成するために,softmax演算により終端したシャムネットワークを用いる。 監督なしでは、異なる拡張のクラス分布を一貫性を持たせます。 その間、私たちはクラス分布を規則化し、鋭く多様なものにします。 具体的には,各試料の分布のエントロピーを最小化し,各試料のクラス予測を行い,平均分布のエントロピーを最大化し,異なる試料の予測を多様化させる。 このようにして、TWISTは非対称ネットワーク、停止次数演算、モーメントエンコーダといった特定の設計なしに、自明な解を避けることができる。 クラスタリングと学習を交互に行うクラスタリングベースの手法とは異なり,本手法は統一損失関数によって導かれる単一学習プロセスである。 その結果、TWISTは、教師なし分類、線形分類、セミ教師付き学習、トランスファーラーニング、検出やセグメンテーションのようないくつかの密集した予測タスクなど、幅広いタスクにおいて最先端の手法より優れている。

We present TWIST, a novel self-supervised representation learning method by classifying large-scale unlabeled datasets in an end-to-end way. We employ a siamese network terminated by a softmax operation to produce twin class distributions of two augmented images. Without supervision, we enforce the class distributions of different augmentations to be consistent. In the meantime, we regularize the class distributions to make them sharp and diverse. Specifically, we minimize the entropy of the distribution for each sample to make the class prediction for each sample assertive and maximize the entropy of the mean distribution to make the predictions of different samples diverse. In this way, TWIST can naturally avoid the trivial solutions without specific designs such as asymmetric network, stop-gradient operation, or momentum encoder. Different from the clustering-based methods which alternate between clustering and learning, our method is a single learning process guided by a unified loss function. As a result, TWIST outperforms state-of-the-art methods on a wide range of tasks, including unsupervised classification, linear classification, semi-supervised learning, transfer learning, and some dense prediction tasks such as detection and segmentation.
翻訳日:2021-10-15 13:25:11 公開日:2021-10-14
# 海底セグメンテーションのための自動特徴選択による確率的ファジィ局所情報C-平均

Possibilistic Fuzzy Local Information C-Means with Automated Feature Selection for Seafloor Segmentation ( http://arxiv.org/abs/2110.07433v1 )

ライセンス: Link先を確認
Joshua Peeples, Daniel Suen, Alina Zare, James Keller(参考訳) ポシビリスティックなファジィ局所情報c-means (pflicm) 法を, 海底の異なる領域に横見合成開口ソナー (sas) 像を分割する手法として提示した。 本研究では,SAS画像セグメンテーションのための自動特徴選択手法について検討し,提案する。 画像から選択された特徴と結果のセグメンテーションは、選択された定量クラスタリング妥当性基準に基づいて評価され、所望の閾値に達する特徴のサブセットがセグメンテーションプロセスに使用される。

The Possibilistic Fuzzy Local Information C-Means (PFLICM) method is presented as a technique to segment side-look synthetic aperture sonar (SAS) imagery into distinct regions of the sea-floor. In this work, we investigate and present the results of an automated feature selection approach for SAS image segmentation. The chosen features and resulting segmentation from the image will be assessed based on a select quantitative clustering validity criterion and the subset of the features that reach a desired threshold will be used for the segmentation process.
翻訳日:2021-10-15 13:24:50 公開日:2021-10-14
# SpeechT5: Unified-Modal Encoder-Decoder Pre-training for Spoken Language Processing

SpeechT5: Unified-Modal Encoder-Decoder Pre-training for Spoken Language Processing ( http://arxiv.org/abs/2110.07205v1 )

ライセンス: Link先を確認
Junyi Ao, Rui Wang, Long Zhou, Shujie Liu, Shuo Ren, Yu Wu, Tom Ko, Qing Li, Yu Zhang, Zhihua Wei, Yao Qian, Jinyu Li, Furu Wei(参考訳) 自然言語処理モデルの事前学習におけるT5(Text-To-Text Transfer Transformer)の成功に触発されて,自己教師型音声/テキスト表現学習のためのエンコーダ・デコーダ事前学習を探索する統一モーダルなSpeechT5フレームワークを提案する。 SpeechT5フレームワークは共有エンコーダデコーダネットワークと6つのモーダル固有(音声/テキスト)プレ/ポストネットで構成されている。 プリネットを介して音声/テキスト入力を前処理した後、共有エンコーダ−デコーダネットワークはシーケンスからシーケンス変換をモデル化し、後ネットはデコーダ出力に基づいて音声/テキストモダリティで出力を生成する。 特に、 speecht5 は、大量のラベルのない音声とテキストデータを事前学習することができ、音声とテキストのモデリングの能力を向上させる。 テキスト情報と音声情報を統一的な意味空間に整合させるため,テキストとテキストをランダムに混合したクロスモーダルベクトル量子化法を提案する。 音声変換,音声認識,テキストから音声への認識,話者識別など,多種多様な音声言語処理タスクに対する広範囲な評価は,提案したSpeechT5フレームワークの優位性を示している。

Motivated by the success of T5 (Text-To-Text Transfer Transformer) in pre-training natural language processing models, we propose a unified-modal SpeechT5 framework that explores the encoder-decoder pre-training for self-supervised speech/text representation learning. The SpeechT5 framework consists of a shared encoder-decoder network and six modal-specific (speech/text) pre/post-nets. After preprocessing the speech/text input through the pre-nets, the shared encoder-decoder network models the sequence to sequence transformation, and then the post-nets generate the output in the speech/text modality based on the decoder output. Particularly, SpeechT5 can pre-train on a large scale of unlabeled speech and text data to improve the capability of the speech and textual modeling. To align the textual and speech information into a unified semantic space, we propose a cross-modal vector quantization method with random mixing-up to bridge speech and text. Extensive evaluations on a wide variety of spoken language processing tasks, including voice conversion, automatic speech recognition, text to speech, and speaker identification, show the superiority of the proposed SpeechT5 framework.
翻訳日:2021-10-15 13:24:40 公開日:2021-10-14
# Momentum Adversarial Domain Invariant Representation を用いたゼロショット密度検索

Zero-Shot Dense Retrieval with Momentum Adversarial Domain Invariant Representations ( http://arxiv.org/abs/2110.07581v1 )

ライセンス: Link先を確認
Ji Xin, Chenyan Xiong, Ashwin Srinivasan, Ankita Sharma, Damien Jose, Paul N. Bennett(参考訳) Dense Search (DR) 法は、テキストを埋め込み空間にエンコードし、近隣の検索でマッチングすることでテキスト検索を行う。 これは表現空間からの強い局所性プロパティ、すなわち、十分なトレーニングデータなしでドメインに一般化することが難しい、関連するテキストの小さなグループへの近接割り当てを必要とする。 本稿では、ゼロショット設定において、DRモデルのソーストレーニング領域とリッチな監視信号からターゲットドメインへの一般化能力を改善することを目的とする。 そこで本研究では、DR学習プロセスにおいて、ソースとターゲットを区別するドメイン分類器を訓練するための運動量法を導入するMomentum Adversarial Domain Invariant Representation Learning(MoDIR)を提案し、DRエンコーダを逆更新してドメイン不変表現を学習する。 実験の結果,MODIR は BEIR ベンチマークから BEIR の10 以上の評価データセットのベースラインをゼロショット設定で頑健に上回り,DR モデルの評価に十分な感度を持つデータセットに対して10% 以上の相対的なゲインが得られた。 この論文のソースコードはリリースされる予定だ。

Dense retrieval (DR) methods conduct text retrieval by first encoding texts in the embedding space and then matching them by nearest neighbor search. This requires strong locality properties from the representation space, i.e, the close allocations of each small group of relevant texts, which are hard to generalize to domains without sufficient training data. In this paper, we aim to improve the generalization ability of DR models from source training domains with rich supervision signals to target domains without any relevant labels, in the zero-shot setting. To achieve that, we propose Momentum adversarial Domain Invariant Representation learning (MoDIR), which introduces a momentum method in the DR training process to train a domain classifier distinguishing source versus target, and then adversarially updates the DR encoder to learn domain invariant representations. Our experiments show that MoDIR robustly outperforms its baselines on 10+ ranking datasets from the BEIR benchmark in the zero-shot setup, with more than 10% relative gains on datasets with enough sensitivity for DR models' evaluation. Source code of this paper will be released.
翻訳日:2021-10-15 13:22:38 公開日:2021-10-14
# CNN-DST:Dempster-Sha fer理論に基づくアンサンブル深層学習による振動に基づく断層認識

CNN-DST: ensemble deep learning based on Dempster-Shafer theory for vibration-based fault recognition ( http://arxiv.org/abs/2110.07191v1 )

ライセンス: Link先を確認
Vahid Yaghoubi, Liangliang Cheng, Wim Van Paepegem, Mathias Kersemans(参考訳) 現在、振動データとパターン認識法を併用することは、構造物における最も一般的な故障検出戦略の1つである。 しかし, その性能は, 振動データから抽出した特徴, 分類器を訓練する特徴, パターン認識に用いる分類器に依存する。 深層学習は特徴抽出と選択、分類の手順を自動化することにより、欠陥検出手順を容易にする。 しかし、ディープラーニングアプローチは、その構造を設計し、ハイパーパラメータをチューニングする上で困難があり、その結果、一般化能力は低くなる可能性がある。 そこで本研究では,CNN-DSTと呼ばれる畳み込みニューラルネットワーク(CNN)とDST(Dempster-Shafer theory)に基づくアンサンブル深層学習フレームワークを提案する。 本フレームワークでは,提案手法により選択されたCNNの出力を改良したDST法を用いて,まず,提案手法を用いた複数のCNNを訓練する。 提案したCNN-DSTフレームワークを検証するため,多結晶ニッケル合金第一段タービンブレードのブロードバンド振動応答と損傷強度の異なる実験データセットに適用した。 統計的解析により, 提案するcnn-dstフレームワークは, 平均予測精度97.19%でタービンブレードを分類した。 提案するCNN-DSTフレームワークは他の最先端の分類手法とベンチマークを行い,その性能を実証した。 測定ノイズに対するCNN-DSTフレームワークのロバスト性について検討し,高い耐雑音性を示した。 さらに, 帯域幅解析により, 故障サンプル検出に必要な情報のほとんどは, 少ない周波数範囲で利用可能であることが判明した。

Nowadays, using vibration data in conjunction with pattern recognition methods is one of the most common fault detection strategies for structures. However, their performances depend on the features extracted from vibration data, the features selected to train the classifier, and the classifier used for pattern recognition. Deep learning facilitates the fault detection procedure by automating the feature extraction and selection, and classification procedure. Though, deep learning approaches have challenges in designing its structure and tuning its hyperparameters, which may result in a low generalization capability. Therefore, this study proposes an ensemble deep learning framework based on a convolutional neural network (CNN) and Dempster-Shafer theory (DST), called CNN-DST. In this framework, several CNNs with the proposed structure are first trained, and then, the outputs of the CNNs selected by the proposed technique are combined by using an improved DST-based method. To validate the proposed CNN-DST framework, it is applied to an experimental dataset created by the broadband vibrational responses of polycrystalline Nickel alloy first-stage turbine blades with different types and severities of damage. Through statistical analysis, it is shown that the proposed CNN-DST framework classifies the turbine blades with an average prediction accuracy of 97.19%. The proposed CNN-DST framework is benchmarked with other state-of-the-art classification methods, demonstrating its high performance. The robustness of the proposed CNN-DST framework with respect to measurement noise is investigated, showing its high noise-resistance. Further, bandwidth analysis reveals that most of the required information for detecting faulty samples is available in a small frequency range.
翻訳日:2021-10-15 13:21:33 公開日:2021-10-14
# HAVEN:デュアルコーディネーション機構を用いた階層的協調型マルチエージェント強化学習

HAVEN: Hierarchical Cooperative Multi-Agent Reinforcement Learning with Dual Coordination Mechanism ( http://arxiv.org/abs/2110.07246v1 )

ライセンス: Link先を確認
Zhiwei Xu, Yunpeng Bai, Bin Zhang, Dapeng Li, Guoliang Fan(参考訳) マルチエージェント強化学習は、しばしば多数のエージェントによって引き起こされる指数関数的に大きなアクション空間に苦しむ。 本稿では,完全協調型マルチエージェント問題に対する階層的強化学習に基づく新しい値分解フレームワークHAVENを提案する。 高レベルおよび低レベルポリシーの同時最適化とエージェントの別の同時最適化から生じる不安定性に対処するために、層間戦略とエージェント間戦略の二重協調機構を導入する。 HAVENはドメイン知識や事前学習を一切必要とせず、任意の値分解変種に適用することができる。 提案手法は,StarCraft IIマイクロマネジメントタスクにおいて,多くのベースラインに対して優れた結果が得られ,完全協調シナリオにおけるマルチエージェント階層型強化学習の効率的なソリューションを提供する。

Multi-agent reinforcement learning often suffers from the exponentially larger action space caused by a large number of agents. In this paper, we propose a novel value decomposition framework HAVEN based on hierarchical reinforcement learning for the fully cooperative multi-agent problems. In order to address instabilities that arise from the concurrent optimization of high-level and low-level policies and another concurrent optimization of agents, we introduce the dual coordination mechanism of inter-layer strategies and inter-agent strategies. HAVEN does not require domain knowledge and pretraining at all, and can be applied to any value decomposition variants. Our method is demonstrated to achieve superior results to many baselines on StarCraft II micromanagement tasks and offers an efficient solution to multi-agent hierarchical reinforcement learning in fully cooperative scenarios.
翻訳日:2021-10-15 13:21:04 公開日:2021-10-14
# クラウド支援車載サイバー攻撃検出のためのハイブリッド量子古典ニューラルネットワーク

Hybrid Quantum-Classical Neural Network for Cloud-supported In-Vehicle Cyberattack Detection ( http://arxiv.org/abs/2110.07467v1 )

ライセンス: Link先を確認
Mhafuzul Islam, Mashrur Chowdhury, Zadid Khan, Sakib Mahmud Khan(参考訳) 古典的なコンピュータは1と0で動作するが、量子コンピュータは1と0の1と0と重畳を使い、量子コンピュータは古典的なコンピュータと比較して膨大な数の計算を同時に行うことができる。 クラウドをサポートするサイバー物理システム環境では、現在の量子デバイスに制限があるため、量子コンピュータで機械学習アプリケーションを実行することはしばしば困難である。 しかし、量子古典ニューラルネットワーク(NN)の組み合わせにより、古典的NNによって複雑な特徴と高次元の特徴を抽出し、既存の量子コンピュータによって処理されるより少ないがより情報的な特徴空間にすることができる。 本研究では,車載制御エリアネットワーク(CAN)データセット上で,振幅シフトサイバー攻撃を検出するためのハイブリッド量子古典的NNを開発した。 本研究では,ハイブリッド量子古典的NNを用いて,Long短期メモリ(LSTM)NN(87%)や量子NN(62%)よりも高い94%の攻撃検出精度を達成可能であることを示す。

A classical computer works with ones and zeros, whereas a quantum computer uses ones, zeros, and superpositions of ones and zeros, which enables quantum computers to perform a vast number of calculations simultaneously compared to classical computers. In a cloud-supported cyber-physical system environment, running a machine learning application in quantum computers is often difficult, due to the existing limitations of the current quantum devices. However, with the combination of quantum-classical neural networks (NN), complex and high-dimensional features can be extracted by the classical NN to a reduced but more informative feature space to be processed by the existing quantum computers. In this study, we develop a hybrid quantum-classical NN to detect an amplitude shift cyber-attack on an in-vehicle control area network (CAN) dataset. We show that using the hybrid quantum classical NN, it is possible to achieve an attack detection accuracy of 94%, which is higher than a Long short-term memory (LSTM) NN (87%) or quantum NN alone (62%)
翻訳日:2021-10-15 13:20:51 公開日:2021-10-14
# Looper: 製品決定のためのエンドツーエンドのMLプラットフォーム

Looper: An end-to-end ML platform for product decisions ( http://arxiv.org/abs/2110.07554v1 )

ライセンス: Link先を確認
Igor L. Markov, Hanson Wang, Nitya Kasturi, Shaun Singh, Sze Wai Yuen, Mia Garrard, Sarah Tran, Yin Huang, Zehui Wang, Igor Glotov, Tanvi Gupta, Boshuang Huang, Peng Chen, Xiaowen Xie, Michael Belkin, Sal Uryasev, Sam Howie, Eytan Bakshy, Norm Zhou(参考訳) 現代のソフトウェアシステムや製品は、コンピューティングインフラストラクチャなど、ユーザやシステムとのインタラクションに基づいてデータ駆動の意思決定を行うために、ますます機械学習モデルに依存しています。 広く採用するためには、この慣行は (i)MLのバックグラウンドのないソフトウェアエンジニアに対応し、 (ii)製品目標を最適化するメカニズムを提供する。 本稿では、一般的な原則と、意思決定とフィードバック収集のための使いやすいAPIを提供する、特定のエンドツーエンドMLプラットフォームであるLooperについて説明する。 Looperは、オンラインデータ収集からモデルトレーニング、デプロイメント、推論、製品目標に対する評価とチューニングのサポートまで、エンドツーエンドのMLライフサイクルを完全にサポートする。 プラットフォームアーキテクチャと製品展開の全体的な影響について概説します。 また、学習曲線を説明し、プラットフォーム導入者の経験を要約する。

Modern software systems and products increasingly rely on machine learning models to make data-driven decisions based on interactions with users and systems, e.g., compute infrastructure. For broader adoption, this practice must (i) accommodate software engineers without ML backgrounds, and (ii) provide mechanisms to optimize for product goals. In this work, we describe general principles and a specific end-to-end ML platform, Looper, which offers easy-to-use APIs for decision-making and feedback collection. Looper supports the full end-to-end ML lifecycle from online data collection to model training, deployment, inference, and extends support to evaluation and tuning against product goals. We outline the platform architecture and overall impact of production deployment. We also describe the learning curve and summarize experiences from platform adopters.
翻訳日:2021-10-15 13:20:32 公開日:2021-10-14
# 大規模マルチエージェント研究のためのニューラルMMOプラットフォーム

The Neural MMO Platform for Massively Multiagent Research ( http://arxiv.org/abs/2110.07594v1 )

ライセンス: Link先を確認
Joseph Suarez, Yilun Du, Clare Zhu, Igor Mordatch, Phillip Isola(参考訳) Neural MMOは、大規模エージェント、長期水平線、オープンエンドタスク、モジュール型ゲームシステムを組み合わせた、計算可能な研究プラットフォームである。 既存の環境はこれらの特性のサブセットを特徴としていますが、Neural MMOはそれらを全て組み合わせた最初のものです。 我々は、Neural MMOを、アクティブなサポート、継続的な開発、ドキュメント、追加のトレーニング、ロギング、可視化ツールを備えた、フリーでオープンソースのソフトウェアとして提示します。 プラットフォーム上の最初のベースラインは、多くの集団で訓練されたエージェントがより多くの調査を行い、スキルの進歩を学ぶことを示している。 Neural MMOが答えに適したオープンリサーチ質問として、多チーム協力など、さらに難しい問題を提起します。 最後に、プラットフォームの現在の制限、潜在的な緩和、継続的な開発計画について論じる。

Neural MMO is a computationally accessible research platform that combines large agent populations, long time horizons, open-ended tasks, and modular game systems. Existing environments feature subsets of these properties, but Neural MMO is the first to combine them all. We present Neural MMO as free and open source software with active support, ongoing development, documentation, and additional training, logging, and visualization tools to help users adapt to this new setting. Initial baselines on the platform demonstrate that agents trained in large populations explore more and learn a progression of skills. We raise other more difficult problems such as many-team cooperation as open research questions which Neural MMO is well-suited to answer. Finally, we discuss current limitations of the platform, potential mitigations, and plans for continued development.
翻訳日:2021-10-15 13:20:19 公開日:2021-10-14
# (参考訳) LAGr: セマンティックパーシングにおける体系的一般化改善のためのアライメント付きグラフのラベル付け [全文訳有]

LAGr: Labeling Aligned Graphs for Improving Systematic Generalization in Semantic Parsing ( http://arxiv.org/abs/2110.07572v1 )

ライセンス: CC BY 4.0
Dora Jambor, Dzmitry Bahdanau(参考訳) 意味解析は、自然言語の発話や質問に対する構造化された意味表現を作成するタスクである。 近年の研究では、一般的に使用されているseq2seq(sequence-to- sequence)セマンティクスパーサは、体系的な一般化、すなわち新しい設定で既知の知識を再結合する必要がある例を扱うのに苦労していると指摘している。 本研究では,グラフとしてではなく,直接的に意味表現(mr)を列として生成することで,より体系的な一般化が可能となることを示す。 この目的のために,完全多層入力整列グラフに対するノードラベルとエッジラベルの予測により意味解析を生成するラベル付きグラフアルゴリズムである LAGr を提案する。 強教師付きラガーアルゴリズムはアライメントグラフを入力として必要とし、弱教師付きラガーアルゴリズムは近似地図推論法を用いて元々アライメントされていない対象グラフのアライメントを推定する。 COGS と CFQ の構成一般化ベンチマークでは、強い教師付き LAGr アルゴリズムがベースラインの seq2seq パーサで大幅に改善されている。

Semantic parsing is the task of producing a structured meaning representation for natural language utterances or questions. Recent research has pointed out that the commonly-used sequence-to-sequence (seq2seq) semantic parsers struggle to generalize systematically, i.e. to handle examples that require recombining known knowledge in novel settings. In this work, we show that better systematic generalization can be achieved by producing the meaning representation (MR) directly as a graph and not as a sequence. To this end we propose LAGr, the Labeling Aligned Graphs algorithm that produces semantic parses by predicting node and edge labels for a complete multi-layer input-aligned graph. The strongly-supervised LAGr algorithm requires aligned graphs as inputs, whereas weakly-supervised LAGr infers alignments for originally unaligned target graphs using an approximate MAP inference procedure. On the COGS and CFQ compositional generalization benchmarks the strongly- and weakly- supervised LAGr algorithms achieve significant improvements upon the baseline seq2seq parsers.
翻訳日:2021-10-15 13:18:43 公開日:2021-10-14
# Plug-Tagger: 言語モデルを用いたプラグイン可能なシーケンスラベルフレームワーク

Plug-Tagger: A Pluggable Sequence Labeling Framework Using Language Models ( http://arxiv.org/abs/2110.07331v1 )

ライセンス: Link先を確認
Xin Zhou, Ruotian Ma, Tao Gui, Yiding Tan, Qi Zhang, Xuanjing Huang(参考訳) プラグイン・アンド・プレイ機能により、ディープラーニングモデルはパラメータを変更することなく、異なるタスクに順応することができる。 近年、プレフィックスチューニングは、入力に対応する連続ベクトルを挿入するだけで、様々なテキスト生成タスクのプラグアンドプレイ方式であることが示されている。 しかし、シーケンスラベリングタスクは、異なるラベルセットがモデル分類器のアーキテクチャの変更を要求するため、既存のプラグアンドプレイメソッドを無効にする。 そこで本研究では,学習済みモデルのアーキテクチャを完全に再利用するために,分類ではなくラベル単語の予測手法を提案する。 具体的には、まず、各クラス毎に高周波ワードを選択してラベルワードセットを構築し、次いで、入力にタスク固有ベクトルを挿入して、対応するラベルワードに対してモデル予測を操作するように最適化する。 その結果、単に入力のプラグインベクトルを切り替えることによって、凍結事前訓練された言語モデルが異なるタスクを実行できる。 3つのシーケンスラベリングタスクにおける実験結果から,提案手法の性能は0.1\%のタスク固有パラメータで,標準的な微調整と同等の性能が得られることがわかった。 さらに,本手法は資源制約シナリオ下で異なるタスクを切り替えながら,非プラグアンドプレイ方式よりも最大70倍高速である。

Plug-and-play functionality allows deep learning models to adapt well to different tasks without requiring any parameters modified. Recently, prefix-tuning was shown to be a plug-and-play method on various text generation tasks by simply inserting corresponding continuous vectors into the inputs. However, sequence labeling tasks invalidate existing plug-and-play methods since different label sets demand changes to the architecture of the model classifier. In this work, we propose the use of label word prediction instead of classification to totally reuse the architecture of pre-trained models for sequence labeling tasks. Specifically, for each task, a label word set is first constructed by selecting a high-frequency word for each class respectively, and then, task-specific vectors are inserted into the inputs and optimized to manipulate the model predictions towards the corresponding label words. As a result, by simply switching the plugin vectors on the input, a frozen pre-trained language model is allowed to perform different tasks. Experimental results on three sequence labeling tasks show that the performance of the proposed method can achieve comparable performance with standard fine-tuning with only 0.1\% task-specific parameters. In addition, our method is up to 70 times faster than non-plug-and-play methods while switching different tasks under the resource-constrained scenario.
翻訳日:2021-10-15 12:58:58 公開日:2021-10-14
# SaFeRDialogues:会話の安全性が損なわれた後、フィードバックを優遇

SaFeRDialogues: Taking Feedback Gracefully after Conversational Safety Failures ( http://arxiv.org/abs/2110.07518v1 )

ライセンス: Link先を確認
Megan Ung, Jing Xu, Y-Lan Boureau(参考訳) 現在のオープンドメインの会話モデルは、不適切な方法で簡単に会話できる。 会話パートナーが与える会話フィードバックからのオンライン学習は、モデルの改善と適応のための有望な道であり、これらの安全性の失敗を少なくする。 しかし、現在の最先端モデルでは、防御的あるいは不快な反応でフィードバックに反応する傾向がある。 これは不快な経験をもたらし、会話パートナーが将来フィードバックを与えるのを妨げる可能性がある。 この研究は、安全障害に関する会話フィードバックに対する優雅な応答のタスクとデータセットであるSaFeRDialoguesを提案する。 安全障害を示す10k対話のデータセットを収集し,フィードバックを発信し,フィードバックを応答として認識する。 このデータセットの微調整が、人間のラテンダーが、一般の会話能力やエンゲージメントを犠牲にすることなく、市民の会話につながる可能性がかなり高いと判断する会話をもたらすことを示す。

Current open-domain conversational models can easily be made to talk in inadequate ways. Online learning from conversational feedback given by the conversation partner is a promising avenue for a model to improve and adapt, so as to generate fewer of these safety failures. However, current state-of-the-art models tend to react to feedback with defensive or oblivious responses. This makes for an unpleasant experience and may discourage conversation partners from giving feedback in the future. This work proposes SaFeRDialogues, a task and dataset of graceful responses to conversational feedback about safety failures. We collect a dataset of 10k dialogues demonstrating safety failures, feedback signaling them, and a response acknowledging the feedback. We show how fine-tuning on this dataset results in conversations that human raters deem considerably more likely to lead to a civil conversation, without sacrificing engagingness or general conversational ability.
翻訳日:2021-10-15 12:58:36 公開日:2021-10-14
# BI-RADS BERT & Using Section Tokenization to Understand Radiology Reports

BI-RADS BERT & Using Section Tokenization to Understand Radiology Reports ( http://arxiv.org/abs/2110.07552v1 )

ライセンス: Link先を確認
Grey Kuling, Dr. Belinda Curpen, and Anne L. Martel(参考訳) 放射線学レポートは、放射線科医と他の臨床医とのコミュニケーションの主要な形態であり、患者ケアの重要な情報を含んでいる。 しかし、この情報を研究に利用するためには、原文を解析に適した構造化データに変換する必要がある。 ドメイン固有の文脈単語の埋め込みは、医学におけるそのような自然言語処理タスクにおいて印象的な精度を達成することが示されている。 本研究では,胸部ラジオグラフィーレポートを用いた文脈埋め込みBERTモデルを事前学習し,部分トークン化タスクを実行するために,補助的なグローバルテキスト特徴を組み込んだ分類器を開発した。 このモデルは,Breast Imaging Reporting and Data System (BI-RADS)レキシコンで概説された情報の一部に自由テキストレポートを分離することで,98%の精度を実現した。 また, モダリティ/プロシーデュア, 先行癌, 更年期状態, 試験目的, 乳房密度, 乳房容積の増大など, 下流領域の抽出が改善されるかどうかについて検討した。 胸部X線検査で事前訓練したBERTモデルとセクショントークン化を併用すると、全体的な精度は95.9%となった。 これは、セクショントークン化やClassic BERT埋め込みのないモデルのフィールド抽出において、全体的な精度78.9%に比べて17%改善されている。 本研究は, 胸部X線検査におけるBERTの有用性と, 胸部X線検査で記録された患者因子の重要な特徴を同定するためのセクショントークン化の利点を示す。

Radiology reports are the main form of communication between radiologists and other clinicians, and contain important information for patient care. However in order to use this information for research it is necessary to convert the raw text into structured data suitable for analysis. Domain specific contextual word embeddings have been shown to achieve impressive accuracy at such natural language processing tasks in medicine. In this work we pre-trained a contextual embedding BERT model using breast radiology reports and developed a classifier that incorporated the embedding with auxiliary global textual features in order to perform a section tokenization task. This model achieved a 98% accuracy at segregating free text reports into sections of information outlined in the Breast Imaging Reporting and Data System (BI-RADS) lexicon, a significant improvement over the Classic BERT model without auxiliary information. We then evaluated whether using section tokenization improved the downstream extraction of the following fields: modality/procedure, previous cancer, menopausal status, purpose of exam, breast density and background parenchymal enhancement. Using the BERT model pre-trained on breast radiology reports combined with section tokenization resulted in an overall accuracy of 95.9% in field extraction. This is a 17% improvement compared to an overall accuracy of 78.9% for field extraction for models without section tokenization and with Classic BERT embeddings. Our work shows the strength of using BERT in radiology report analysis and the advantages of section tokenization in identifying key features of patient factors recorded in breast radiology reports.
翻訳日:2021-10-15 12:58:21 公開日:2021-10-14
# 検索誘導型QAのファクトジェネレーション

Retrieval-guided Counterfactual Generation for QA ( http://arxiv.org/abs/2110.07596v1 )

ライセンス: Link先を確認
Bhargavi Paranjape, Matthew Lamm and Ian Tenney(参考訳) 深部NLPモデルは急激な相関を学習し、摂動を入力しにくいことが示されている。 最近の研究は、反ファクト的または対照的なデータ、すなわち最小の摂動入力がこれらの弱点を明らかにすることを示し、反ファクト的データを使用したデータ拡張がそれらを改善することを示した。 反事実を生成するための技術は、人間のアノテーション、単純なヒューリスティックに基づく摂動、表現フレームワークに頼っている。 我々は,世界知識,意味的多様性,回答可能性にまつわる固有の課題を提示する質問応答のための反事実作成の課題に焦点をあてる。 これらの課題に対処するため、我々は人間を最小限に抑えた対実的評価とトレーニングデータを作成するためのRetrieve-Generate-Fi lter(RGF)技術を開発した。 オープンドメインのQAフレームワークと、元のタスクデータに基づいてトレーニングされた質問生成モデルを使用して、流動的でセマンティックに多様性があり、自動的にラベル付けされた偽物を生成する。 RGFカウンタファクトによるデータ拡張は、参照理解とオープンドメインのQA設定の両方において、ドメイン外および既存のメソッド以上の課題評価セットのパフォーマンスを向上させる。 さらに, rgfデータは, 局所摂動に対するモデルのロバスト性が大幅に向上することがわかった。

Deep NLP models have been shown to learn spurious correlations, leaving them brittle to input perturbations. Recent work has shown that counterfactual or contrastive data -- i.e. minimally perturbed inputs -- can reveal these weaknesses, and that data augmentation using counterfactuals can help ameliorate them. Proposed techniques for generating counterfactuals rely on human annotations, perturbations based on simple heuristics, and meaning representation frameworks. We focus on the task of creating counterfactuals for question answering, which presents unique challenges related to world knowledge, semantic diversity, and answerability. To address these challenges, we develop a Retrieve-Generate-Fi lter(RGF) technique to create counterfactual evaluation and training data with minimal human supervision. Using an open-domain QA framework and question generation model trained on original task data, we create counterfactuals that are fluent, semantically diverse, and automatically labeled. Data augmentation with RGF counterfactuals improves performance on out-of-domain and challenging evaluation sets over and above existing methods, in both the reading comprehension and open-domain QA settings. Moreover, we find that RGF data leads to significant improvements in a model's robustness to local perturbations.
翻訳日:2021-10-15 12:57:52 公開日:2021-10-14
# 映像言語理解のためのCLIP強化手法

A CLIP-Enhanced Method for Video-Language Understanding ( http://arxiv.org/abs/2110.07137v1 )

ライセンス: Link先を確認
Guohao Li, Feng He, Zhifan Feng(参考訳) 本稿では,ビデオと言語理解評価(VALUE)の課題(https://value-bench mark.github.io/chall enge\_2021.html)について概説する。 下流のビデオテキストタスクに画像テキスト事前学習の知識を組み込むCLIP拡張手法を提案する。 他のいくつかの改良された設計と組み合わせて、我々の手法はVALUEベンチマークのMeta-Aveスコアを2.4\%$$57.58$から60.00$に改善した。

This technical report summarizes our method for the Video-And-Language Understanding Evaluation (VALUE) challenge (https://value-bench mark.github.io/chall enge\_2021.html). We propose a CLIP-Enhanced method to incorporate the image-text pretrained knowledge into downstream video-text tasks. Combined with several other improved designs, our method outperforms the state-of-the-art by $2.4\%$ ($57.58$ to $60.00$) Meta-Ave score on VALUE benchmark.
翻訳日:2021-10-15 12:57:28 公開日:2021-10-14
# 視覚・言語推論のための意味的分散ロバスト最適化

Semantically Distributed Robust Optimization for Vision-and-Language Inference ( http://arxiv.org/abs/2110.07165v1 )

ライセンス: Link先を確認
Tejas Gokhale, Abhishek Chaudhary, Pratyay Banerjee, Chitta Baral, Yezhou Yang(参考訳) ヴィジュアル・アンド・ランゲージモデルの解析は、パラフレーズ化、否定、テキストのエンテーメント、同義語やアントロニムによる単語置換といった言語現象の下で、その脆さを明らかにしている。 データ拡張技術はこれらの障害モードに対して緩和するように設計されているが、この知識をトレーニングパイプラインに統合する手法は未検討のままである。 本稿では、分散ロバスト最適化設定における集合言語変換を利用するモデル非依存の方法である \textbf{SDRO} と、推論中にこれらの変換を利用するアンサンブル手法を提案する。 画像(NLVR$^2$)とビデオ(VIOLIN)によるベンチマークデータセットの実験では、パフォーマンスの改善に加えて、敵攻撃に対する堅牢性も示されている。 バイナリvqaの実験は、この方法の他のv\&lタスクへの一般化可能性を探る。

Analysis of vision-and-language models has revealed their brittleness under linguistic phenomena such as paraphrasing, negation, textual entailment, and word substitutions with synonyms or antonyms. While data augmentation techniques have been designed to mitigate against these failure modes, methods that can integrate this knowledge into the training pipeline remain under-explored. In this paper, we present \textbf{SDRO}, a model-agnostic method that utilizes a set linguistic transformations in a distributed robust optimization setting, along with an ensembling technique to leverage these transformations during inference. Experiments on benchmark datasets with images (NLVR$^2$) and video (VIOLIN) demonstrate performance improvements as well as robustness to adversarial attacks. Experiments on binary VQA explore the generalizability of this method to other V\&L tasks.
翻訳日:2021-10-15 12:56:04 公開日:2021-10-14
# 視覚注意を伴うサブワードレベルの口唇読解

Sub-word Level Lip Reading With Visual Attention ( http://arxiv.org/abs/2110.07603v1 )

ライセンス: Link先を確認
Prajwal K R, Triantafyllos Afouras, Andrew Zisserman(参考訳) 本研究の目的は,サイレントビデオ中の音声を認識できる強力な口唇読解モデルを学ぶことである。 従来の作業の多くは、自明にプールされた視覚的特徴の上に既存の自動音声認識技術を適用することで、オープンセットの音声認識問題に対処する。 そこで本研究では,唇読解に遭遇する独特の課題に注目し,その解決法を提案する。 そこで,(1)視覚表現を集約する注意に基づくプーリング機構を提案し,(2)唇読解にサブワード単位を用いることにより,作業のあいまいさをより良くモデル化できることを示し,(3)リップ読解性能とデータや計算効率などの他の重要な要素をバランスさせるトレーニングパイプラインを提案する。 以上の結果に続いて,公開データセットのトレーニングにおいて挑戦的なlrs2およびlrs3ベンチマークの最先端結果を得るとともに,大規模産業データセットでトレーニングされたモデルを,桁違いに少ないデータを用いて超えている。 LRS2データセットで22.6%の単語誤り率を達成し、唇読解モデルでは前例のない性能を達成し、唇読取と自動音声認識のパフォーマンスギャップを著しく減らした。

The goal of this paper is to learn strong lip reading models that can recognise speech in silent videos. Most prior works deal with the open-set visual speech recognition problem by adapting existing automatic speech recognition techniques on top of trivially pooled visual features. Instead, in this paper we focus on the unique challenges encountered in lip reading and propose tailored solutions. To that end we make the following contributions: (1) we propose an attention-based pooling mechanism to aggregate visual speech representations; (2) we use sub-word units for lip reading for the first time and show that this allows us to better model the ambiguities of the task; (3) we propose a training pipeline that balances the lip reading performance with other key factors such as data and compute efficiency. Following the above, we obtain state-of-the-art results on the challenging LRS2 and LRS3 benchmarks when training on public datasets, and even surpass models trained on large-scale industrial datasets by using an order of magnitude less data. Our best model achieves 22.6% word error rate on the LRS2 dataset, a performance unprecedented for lip reading models, significantly reducing the performance gap between lip reading and automatic speech recognition.
翻訳日:2021-10-15 12:55:49 公開日:2021-10-14
# バッチ正規化における分離アフィン変換を用いた意味セグメンテーションの領域適応

Domain Adaptation on Semantic Segmentation with Separate Affine Transformation in Batch Normalization ( http://arxiv.org/abs/2110.07376v1 )

ライセンス: Link先を確認
Junhao Yan, Woonsok Lee(参考訳) 近年、意味的セグメンテーションのための教師なしドメイン適応(UDA)が多くの研究者の注意を呼び起こしている。 その多くは、ソースとターゲットドメイン間のギャップをより良く整合させるために、複雑なシステムを設計するためのアプローチを取っています。 代わりに、ディープニューラルネットワークの非常に基本的な構造であるバッチ正規化に注目し、共有アフィン変換を、提案したセパレートアフィン変換(SEAT)に置き換えることを提案する。 提案したSEATは単純で,実装が容易で,既存の逆学習に基づくUDA手法に統合が容易である。 また, 適応品質をさらに向上するために, より高レベルな特徴を高レベルな特徴に追加し, 識別器に供給する前に, その他の差別器を付加することなく, マルチレベル適応を導入する。 実験により, 提案手法は, 他のUDA法と比較して, 性能精度を損なうことなく, より複雑でないことが示された。

In recent years, unsupervised domain adaptation (UDA) for semantic segmentation has brought many researchers'attention. Many of them take an approach to design a complex system so as to better align the gap between source and target domain. Instead, we focus on the very basic structure of the deep neural network, Batch Normalization, and propose to replace the Sharing Affine Transformation with our proposed Separate Affine Transformation (SEAT). The proposed SEAT is simple, easily implemented and easy to integrate into existing adversarial learning based UDA methods. Also, to further improve the adaptation quality, we introduce multi level adaptation by adding the lower-level features to the higher-level ones before feeding them to the discriminator, without adding extra discriminator like others. Experiments show that the proposed methods is less complex without losing performance accuracy when compared with other UDA methods.
翻訳日:2021-10-15 12:55:03 公開日:2021-10-14
# 神経注意認識階層的話題モデル

Neural Attention-Aware Hierarchical Topic Model ( http://arxiv.org/abs/2110.07161v1 )

ライセンス: Link先を確認
Yuan Jin, He Zhao, Ming Liu, Lan Du, Wray Buntine(参考訳) ニューラルトピックモデル(NTM)は、ディープニューラルネットワークをトピックモデリングに適用する。 その成功にもかかわらず、NTMは一般に2つの重要な側面を無視する:(1)文書レベルの単語カウント情報のみを訓練に利用し、(2)よりきめ細かい文レベルの情報を無視し、(2)文書、文、単語に関する外部意味知識を訓練に利用しない。 これらの問題に対処するために,文と文書語数を共同で再構成する変分自動エンコーダ(VAE)NTMモデルを提案する。 事前訓練された埋め込みは、まず共通の潜在トピック空間に変換され、それらの意味をBoW埋め込みと整合させる。 このモデルでは階層的kl分岐も特徴とし,各文書の埋め込みを利用して文を規則化し,意味的に関連する文に注意を払う。 定量的および質的実験により, モデルの有効性が示された。 1)文及び文書レベルでの復元誤差の低減、及び 2) 現実世界のデータセットからより一貫性のあるトピックを見つける。

Neural topic models (NTMs) apply deep neural networks to topic modelling. Despite their success, NTMs generally ignore two important aspects: (1) only document-level word count information is utilized for the training, while more fine-grained sentence-level information is ignored, and (2) external semantic knowledge regarding documents, sentences and words are not exploited for the training. To address these issues, we propose a variational autoencoder (VAE) NTM model that jointly reconstructs the sentence and document word counts using combinations of bag-of-words (BoW) topical embeddings and pre-trained semantic embeddings. The pre-trained embeddings are first transformed into a common latent topical space to align their semantics with the BoW embeddings. Our model also features hierarchical KL divergence to leverage embeddings of each document to regularize those of their sentences, thereby paying more attention to semantically relevant sentences. Both quantitative and qualitative experiments have shown the efficacy of our model in 1) lowering the reconstruction errors at both the sentence and document levels, and 2) discovering more coherent topics from real-world datasets.
翻訳日:2021-10-15 12:54:17 公開日:2021-10-14
# 低リソース設定のためのマイナショット制御可能なスタイル転送:インド言語における研究

Few-shot Controllable Style Transfer for Low-Resource Settings: A Study in Indian Languages ( http://arxiv.org/abs/2110.07385v1 )

ライセンス: Link先を確認
Kalpesh Krishna, Deepak Nathani, Xavier Garcia, Bidisha Samanta, Partha Talukdar(参考訳) スタイル転送は、入力文をほぼコンテンツを保存しながら、ターゲットスタイルに書き換えるタスクである。 多くの文献では、大きなスタイルのコーパスへのアクセスを前提としているが、最近の研究 (Riley et al. 2021) では、ターゲットのスタイルを抽出するために、推論時に3~10文のみを使用して「ファウショット」スタイルの転送を試みた。 本研究では,インド言語用のスタイル転送という,データセットが使用できない低リソース設定について検討する。 提案手法では,入力をコピーする傾向が強いため,既存手法ではこの処理が不十分であることが判明した。 パラフレーズ間のスタイリスティックな差異をモデル化する新しい手法を用いて,最先端のマイナショットスタイル転送をプッシュする。 自動評価と人的評価を併用した先行研究と比較すると, フォーマル性伝達における性能と出力の多様性は2~3倍に向上する。 さらに,本手法は入力スカラーノブを用いてスタイル転送量を制御できる。 我々は,感情伝達,テキスト簡易化,性中立化,テキスト匿名化など,いくつかの属性伝達方向の質的結果について,モデルを再訓練することなく報告する。 最後に、インドの言語に対する評価データセットやメトリクスが不足しているため、モデル評価が困難であることが判明した。 Indic言語の公式化のさらなる研究を容易にするため、4つの言語で4000の文対のアノテーションをクラウドソースし、このデータセットを使用して自動評価スイートを設計した。

Style transfer is the task of rewriting an input sentence into a target style while approximately preserving its content. While most prior literature assumes access to large style-labelled corpora, recent work (Riley et al. 2021) has attempted "few-shot" style transfer using only 3-10 sentences at inference for extracting the target style. In this work we consider one such low resource setting where no datasets are available: style transfer for Indian languages. We find that existing few-shot methods perform this task poorly, with a strong tendency to copy inputs verbatim. We push the state-of-the-art for few-shot style transfer with a new method modeling the stylistic difference between paraphrases. When compared to prior work using automatic and human evaluations, our model achieves 2-3x better performance and output diversity in formality transfer and code-mixing addition across five Indian languages. Moreover, our method is better able to control the amount of style transfer using an input scalar knob. We report promising qualitative results for several attribute transfer directions, including sentiment transfer, text simplification, gender neutralization and text anonymization, all without retraining the model. Finally we found model evaluation to be difficult due to the lack of evaluation datasets and metrics for Indian languages. To facilitate further research in formality transfer for Indic languages, we crowdsource annotations for 4000 sentence pairs in four languages, and use this dataset to design our automatic evaluation suite.
翻訳日:2021-10-15 12:52:40 公開日:2021-10-14
# テキストのスタイルに気をつけろ! テキストスタイルの伝達に基づく逆・バックドア攻撃

Mind the Style of Text! Adversarial and Backdoor Attacks Based on Text Style Transfer ( http://arxiv.org/abs/2110.07139v1 )

ライセンス: Link先を確認
Fanchao Qi, Yangyi Chen, Xurui Zhang, Mukai Li, Zhiyuan Liu, Maosong Sun(参考訳) 敵対的攻撃とバックドア攻撃は、ディープラーニングを乗り越える2つの一般的なセキュリティ脅威である。 どちらも、その実装において、タスク非関連なデータの機能を利用する。 テキストスタイルは、ほとんどのNLPタスクとは自然に無関係な機能であり、敵やバックドア攻撃に適している。 本稿では,文の意味を保ちながら文のスタイルを変えることを目的とした,テキストスタイルの転送に基づく逆行攻撃とバックドア攻撃の実施を初めて試みる。 本研究では,敵攻撃法とバックドア攻撃法を設計し,その評価を行う。 実験の結果,一般的なnlpモデルでは,テキストスタイル転送に基づく攻撃とバックドア攻撃の両方に対して脆弱であることが判明した。 これは、広く実現されていないテキストスタイルの特徴を扱うためのNLPモデルの限界を反映している。 さらに,移動型対向攻撃法やバックドア攻撃法は,多くの点でベースラインに優越している。 この論文のコードとデータは、https://github.com/t hunlp/StyleAttack.co mで入手できる。

Adversarial attacks and backdoor attacks are two common security threats that hang over deep learning. Both of them harness task-irrelevant features of data in their implementation. Text style is a feature that is naturally irrelevant to most NLP tasks, and thus suitable for adversarial and backdoor attacks. In this paper, we make the first attempt to conduct adversarial and backdoor attacks based on text style transfer, which is aimed at altering the style of a sentence while preserving its meaning. We design an adversarial attack method and a backdoor attack method, and conduct extensive experiments to evaluate them. Experimental results show that popular NLP models are vulnerable to both adversarial and backdoor attacks based on text style transfer -- the attack success rates can exceed 90% without much effort. It reflects the limited ability of NLP models to handle the feature of text style that has not been widely realized. In addition, the style transfer-based adversarial and backdoor attack methods show superiority to baselines in many aspects. All the code and data of this paper can be obtained at https://github.com/t hunlp/StyleAttack.
翻訳日:2021-10-15 12:51:56 公開日:2021-10-14
# 最適輸送における秩序制約

Order Constraints in Optimal Transport ( http://arxiv.org/abs/2110.07275v1 )

ライセンス: Link先を確認
Fabian Lim, Laura Wynter, Shiau Hong Lim(参考訳) 最適輸送(Optimal transport)は、ある測度を別の測度へ輸送するためにコストがかかる度合いを比較するためのフレームワークである。 最近の研究は、様々な形態の構造を導入して最適な輸送計画を改善することを目的としている。 本稿では, 構造を組み込むために, 最適輸送の定式化に新しい順序制約を導入する。 前述したように2倍の制約があるが、順序制約のある最適輸送問題に対する$\delta-$approximate の解は$\mathcal{o}(l^2\delta^{-2} \kappa(\delta(2cl_\i nfty (1+(mn)^{1/2}))^{-1}) \cdot mn\log mn)$ time で得られる。 順序制約によって最適な輸送計画に構造を加えるための説明可能なアプローチを可能にする計算効率の低い境界を導出する。 本研究では,e-SNLI(Stanford Natural Language Inference,スタンフォード自然言語推論)データセットを用いて,命令制約による説明可能性の向上を実験的に実証した。

Optimal transport is a framework for comparing measures whereby a cost is incurred for transporting one measure to another. Recent works have aimed to improve optimal transport plans through the introduction of various forms of structure. We introduce novel order constraints into the optimal transport formulation to allow for the incorporation of structure. While there will are now quadratically many constraints as before, we prove a $\delta-$approximate solution to the order-constrained optimal transport problem can be obtained in $\mathcal{O}(L^2\delta^{-2} \kappa(\delta(2cL_\i nfty (1+(mn)^{1/2}))^{-1}) \cdot mn\log mn)$ time. We derive computationally efficient lower bounds that allow for an explainable approach to adding structure to the optimal transport plan through order constraints. We demonstrate experimentally that order constraints improve explainability using the e-SNLI (Stanford Natural Language Inference) dataset that includes human-annotated rationales for each assignment.
翻訳日:2021-10-15 12:51:23 公開日:2021-10-14
# カルーセル記憶 : 連続学習のためのエピソード記憶の設計を再考する

Carousel Memory: Rethinking the Design of Episodic Memory for Continual Learning ( http://arxiv.org/abs/2110.07276v1 )

ライセンス: Link先を確認
Soobee Lee, Minindu Weerakoon, Jonghyun Choi, Minjia Zhang, Di Wang, Myeongjae Jeon(参考訳) 継続的学習(Continuous Learning, CL)は、タスクの連続ストリームから学習することを目的とした、新しい機械学習パラダイムである。 過去の研究では、新しい非i.d.データから学習しながら、過去の観測されたサンプルのサブセットを記憶するエピソードメモリ(EM)を利用する。 有望な結果にもかかわらず、CLはしばしばモバイルまたはIoTデバイス上で実行されると仮定されるため、EMサイズは小さなハードウェアメモリ容量に縛られ、現実世界のアプリケーションの精度要件を満たすことができない。 具体的には、これまでの全てのCLメソッドは、EMから過剰に流れたサンプルを破棄し、その後のトレーニングステップでそれらを回収することはできません。 忘れる問題に対処する新しい階層的EMマネジメント戦略を探求する。 特にモバイルやIoTデバイスでは、リアルタイムデータは高速RAMだけでなく、内部ストレージデバイスにも格納することができる。 この知見に基づいて,clがメモリとストレージ間のサンプルマイグレーションを,ストレージの遅いアクセス速度に干渉されることなく効率的に行えるようにすることで,過去の経験を保存し,忘れを緩和するために豊富なストレージを活用することを提案する。 Carousel Memory (CarM) と呼ぶ。 CarM は既存の CL 法を補完するものであるため,本手法を 7 つの一般的な CL 法で広範囲に評価し,CarM が同一の訓練効率を維持しつつ,最終平均精度 (28.4% まで) で異なる設定における手法の精度を大幅に向上することを示す。

Continual Learning (CL) is an emerging machine learning paradigm that aims to learn from a continuous stream of tasks without forgetting knowledge learned from the previous tasks. To avoid performance decrease caused by forgetting, prior studies exploit episodic memory (EM), which stores a subset of the past observed samples while learning from new non-i.i.d. data. Despite the promising results, since CL is often assumed to execute on mobile or IoT devices, the EM size is bounded by the small hardware memory capacity and makes it infeasible to meet the accuracy requirements for real-world applications. Specifically, all prior CL methods discard samples overflowed from the EM and can never retrieve them back for subsequent training steps, incurring loss of information that would exacerbate catastrophic forgetting. We explore a novel hierarchical EM management strategy to address the forgetting issue. In particular, in mobile and IoT devices, real-time data can be stored not just in high-speed RAMs but in internal storage devices as well, which offer significantly larger capacity than the RAMs. Based on this insight, we propose to exploit the abundant storage to preserve past experiences and alleviate the forgetting by allowing CL to efficiently migrate samples between memory and storage without being interfered by the slow access speed of the storage. We call it Carousel Memory (CarM). As CarM is complementary to existing CL methods, we conduct extensive evaluations of our method with seven popular CL methods and show that CarM significantly improves the accuracy of the methods across different settings by large margins in final average accuracy (up to 28.4%) while retaining the same training efficiency.
翻訳日:2021-10-15 12:50:57 公開日:2021-10-14
# グラフニューラルネットワークのためのグラフ凝縮

Graph Condensation for Graph Neural Networks ( http://arxiv.org/abs/2110.07580v1 )

ライセンス: Link先を確認
Wei Jin, Lingxiao Zhao, Shichang Zhang, Yozen Liu, Jiliang Tang, Neil Shah(参考訳) 現実世界のアプリケーションにおける大規模グラフの普及を考えると、ニューラルネットワークのトレーニングのためのストレージと時間の増大が懸念されている。 これらの問題を軽減するため,グラフニューラルネットワーク(GNN)におけるグラフ凝縮問題を提案し,検討する。 具体的には、GNNが小さなグラフで訓練し、大きなグラフが同等の性能を持つような、巨大で合成的で高インフォーマティブなグラフにまとめることを目的としている。 勾配整合損失の最適化による元のグラフ上のgnn学習軌跡を模倣し,ノード未来と構造情報を同時に凝縮する戦略を設計することにより,凝縮問題にアプローチする。 大規模な実験では、異なるグラフデータセットをより小さなグラフに凝縮する際のフレームワークの有効性が実証されている。 特に、元のテスト精度をredditで95.3%、flickrで99.8%、citeseerで99.0%、グラフサイズを99.9%以上削減でき、凝縮グラフを様々なgnnアーキテクチャのトレーニングに使うことができる。

Given the prevalence of large-scale graphs in real-world applications, the storage and time for training neural models have raised increasing concerns. To alleviate the concerns, we propose and study the problem of graph condensation for graph neural networks (GNNs). Specifically, we aim to condense the large, original graph into a small, synthetic and highly-informative graph, such that GNNs trained on the small graph and large graph have comparable performance. We approach the condensation problem by imitating the GNN training trajectory on the original graph through the optimization of a gradient matching loss and design a strategy to condense node futures and structural information simultaneously. Extensive experiments have demonstrated the effectiveness of the proposed framework in condensing different graph datasets into informative smaller graphs. In particular, we are able to approximate the original test accuracy by 95.3% on Reddit, 99.8% on Flickr and 99.0% on Citeseer, while reducing their graph size by more than 99.9%, and the condensed graphs can be used to train various GNN architectures.
翻訳日:2021-10-15 12:50:25 公開日:2021-10-14
# 森林火災防止の例としての解釈可能なアナワ近似

Interpretable transformed ANOVA approximation on the example of the prevention of forest fires ( http://arxiv.org/abs/2110.07353v1 )

ライセンス: Link先を確認
Daniel Potts and Michael Schmischke(参考訳) データポイントの分散は、機械学習の重要なコンポーネントである。 ほとんどの場合、min-max正規化を使用して、標準正規分散データの$[0,1]$またはZスコア正規化のノードを取得する。 本稿では、標準正規分布を持つ関数の$\mathrm{L}_2$空間における完全正則系を積分重みとして設計するために変換の考え方を適用する。 その後、この基礎に説明可能なANOVA近似を適用し、Zスコア変換データを用いることができる。 UCI機械学習レポジトリから設定した森林火災データに対して,この手順の適用性を示す。 ANOVA近似から得られた属性ランキングは、データセットのどの変数が火災の検出に最も重要であるかについて重要な情報を提供する。

The distribution of data points is a key component in machine learning. In most cases, one uses min-max normalization to obtain nodes in $[0,1]$ or Z-score normalization for standard normal distributed data. In this paper, we apply transformation ideas in order to design a complete orthonormal system in the $\mathrm{L}_2$ space of functions with the standard normal distribution as integration weight. Subsequently, we are able to apply the explainable ANOVA approximation for this basis and use Z-score transformed data in the method. We demonstrate the applicability of this procedure on the well-known forest fires data set from the UCI machine learning repository. The attribute ranking obtained from the ANOVA approximation provides us with crucial information about which variables in the data set are the most important for the detection of fires.
翻訳日:2021-10-15 12:50:07 公開日:2021-10-14
# (参考訳) 分散文書表現の圧縮性 [全文訳有]

Compressibility of Distributed Document Representations ( http://arxiv.org/abs/2110.07595v1 )

ライセンス: CC BY 4.0
Bla\v{z} \v{S}krlj and Matej Petkovi\v{c}(参考訳) 現代自然言語処理(nlp)は、潜在文書表現から学ぶことを中心に、ニューラルネットワークモデルによって暗黙的に生成されたり、doc2vecなどのメソッドによって明示的に生成されたりする。 得られた表現の重要な性質の1つは、その次元である。 一般的に採用されている256次元と768次元は、多くのタスクで十分なパフォーマンスを提供するが、デフォルト次元がその後のダウンストリーム学習タスクに最も適しているかどうかは不明である。 さらに、表現次元は計算制約によりハイパーパラメータチューニングを受けることがほとんどない。 本研究の目的は,テキスト分類作業において,初期表現を著しく圧縮するには驚くほどシンプルで効率的な再帰的圧縮処理が十分であるだけでなく,その性能を向上させることにある。 小さくてノイズの少ない表現を持つことは、デプロイ時に望ましい特性であり、桁違いに小さいモデルは計算上の過負荷を大幅に削減し、デプロイコストを削減できる。 本稿では,表現圧縮に適した表現学習者に依存しないフレームワークであるCoReを提案する。 CoReのパフォーマンスは、バイオメディカル、ニュース、ソーシャルメディア、文学ドメインから17のリアルライフコーパスのコレクションで展示され、研究されている。 本研究では,文脈的および非文脈的文書表現,異なる圧縮レベル,9つの異なる圧縮アルゴリズムについて検討した。 10万以上の圧縮実験に基づく現在の結果は、再帰的特異値分解が圧縮効率と性能の間に非常に良いトレードオフをもたらし、CoReは既存の表現依存NLPパイプラインの多くで有用であることを示している。

Contemporary natural language processing (NLP) revolves around learning from latent document representations, generated either implicitly by neural language models or explicitly by methods such as doc2vec or similar. One of the key properties of the obtained representations is their dimension. Whilst the commonly adopted dimensions of 256 and 768 offer sufficient performance on many tasks, it is many times unclear whether the default dimension is the most suitable choice for the subsequent downstream learning tasks. Furthermore, representation dimensions are seldom subject to hyperparameter tuning due to computational constraints. The purpose of this paper is to demonstrate that a surprisingly simple and efficient recursive compression procedure can be sufficient to both significantly compress the initial representation, but also potentially improve its performance when considering the task of text classification. Having smaller and less noisy representations is the desired property during deployment, as orders of magnitude smaller models can significantly reduce the computational overload and with it the deployment costs. We propose CoRe, a straightforward, representation learner-agnostic framework suitable for representation compression. The CoRe's performance is showcased and studied on a collection of 17 real-life corpora from biomedical, news, social media, and literary domains. We explored CoRe's behavior when considering contextual and non-contextual document representations, different compression levels, and 9 different compression algorithms. Current results based on more than 100,000 compression experiments indicate that recursive Singular Value Decomposition offers a very good trade-off between the compression efficiency and performance, making CoRe useful in many existing, representation-depen dent NLP pipelines.
翻訳日:2021-10-15 12:48:56 公開日:2021-10-14
# 配電シフト時の特徴フィードバックの実用的効果

Practical Benefits of Feature Feedback Under Distribution Shift ( http://arxiv.org/abs/2110.07566v1 )

ライセンス: Link先を確認
Anurag Katakkar, Weiqin Wang, Clay H. Yoo, Zachary C. Lipton, Divyansh Kaushik(参考訳) サンプル効率のアルゴリズムを開発するために、研究者は、有能なエビデンスを強調するトレーニング(ただし、テストではない)インスタンスのための補助アノテーションである、特徴フィードバックの収集と活用のための無数のメカニズムを探索した。 例えば、オブジェクトのバウンディングボックスやテキスト中のサリアンスパンなどです。 直感的なアピールにもかかわらず、機能フィードバックは、iidホールドアウトセットで評価されるような実用的な問題において大きな成果をもたらしていない。 しかし、近年の反実的な拡張データの研究は、補足アノテーションの代替の利点として、スプリアスパターンに対する感度の低下と、ドメイン外評価における利得の達成を示唆している。 これらの知見に触発されて,機能フィードバックを取り入れた既存手法が無視可能なインサンプルゲインを実現している一方で,ドメイン外の領域を一般化する可能性が示唆された。 感情分析を行う実験において, 特徴フィードバック手法はドメイン内評価に違いがない場合でも, 様々な自然のドメイン外データセットにおいて有意に優れた性能を示す。 対照的に、自然言語の推論タスクでは、パフォーマンスは相容れない。 最後に、機能フィードバックが役に立たない(しない)タスクを比較します。

In attempts to develop sample-efficient algorithms, researcher have explored myriad mechanisms for collecting and exploiting feature feedback, auxiliary annotations provided for training (but not test) instances that highlight salient evidence. Examples include bounding boxes around objects and salient spans in text. Despite its intuitive appeal, feature feedback has not delivered significant gains in practical problems as assessed on iid holdout sets. However, recent works on counterfactually augmented data suggest an alternative benefit of supplemental annotations: lessening sensitivity to spurious patterns and consequently delivering gains in out-of-domain evaluations. Inspired by these findings, we hypothesize that while the numerous existing methods for incorporating feature feedback have delivered negligible in-sample gains, they may nevertheless generalize better out-of-domain. In experiments addressing sentiment analysis, we show that feature feedback methods perform significantly better on various natural out-of-domain datasets even absent differences on in-domain evaluation. By contrast, on natural language inference tasks, performance remains comparable. Finally, we compare those tasks where feature feedback does (and does not) help.
翻訳日:2021-10-15 12:30:59 公開日:2021-10-14
# UniPELT: パラメータ効率の良い言語モデルチューニングのための統一フレームワーク

UniPELT: A Unified Framework for Parameter-Efficient Language Model Tuning ( http://arxiv.org/abs/2110.07577v1 )

ライセンス: Link先を確認
Yuning Mao, Lambert Mathias, Rui Hou, Amjad Almahairi, Hao Ma, Jiawei Han, Wen-tau Yih, Madian Khabsa(参考訳) 従来の事前学習された言語モデルの微調整は、すべてのモデルパラメータをチューニングし、下流タスク毎にフルモデルのコピーを格納する。 最近のパラメータ効率のよい言語モデルチューニング(pelt)メソッドは、トレーニング可能なパラメータがはるかに少ない微調整のパフォーマンスと一致し、トレーニングデータが制限された場合に特にうまく機能する。 しかし、異なるPELTメソッドは、同じタスクでかなり異なる動作をする可能性があるため、特に急速に増加する新しいPELTメソッドや下流タスクを考えると、特定のタスクに対して最も適切なメソッドを選択することは簡単ではない。 モデルの多様性とモデル選択の難しさを踏まえ、異なるpeltメソッドをサブモジュールとして組み込んだ統一フレームワークunipeltを提案し、現在のデータやタスクの設定に最も適したものをアクティベートする方法を学習する。 注目すべきは、GLUEベンチマークにおいて、UniPELTは、異なる設定下での微調整よりも優れた個々のPELTメソッドと比較して、一貫して1~3ptのゲインを達成することである。 さらに、UniPELTは、各タスクで個別に使用する全てのサブモジュールの最高のパフォーマンスを取る際に、上限を超えることが多いため、複数のPELTメソッドの混合が本質的に単一のメソッドよりも効果的である可能性がある。

Conventional fine-tuning of pre-trained language models tunes all model parameters and stores a full model copy for each downstream task, which has become increasingly infeasible as the model size grows larger. Recent parameter-efficient language model tuning (PELT) methods manage to match the performance of fine-tuning with much fewer trainable parameters and perform especially well when the training data is limited. However, different PELT methods may perform rather differently on the same task, making it nontrivial to select the most appropriate method for a specific task, especially considering the fast-growing number of new PELT methods and downstream tasks. In light of model diversity and the difficulty of model selection, we propose a unified framework, UniPELT, which incorporates different PELT methods as submodules and learns to activate the ones that best suit the current data or task setup. Remarkably, on the GLUE benchmark, UniPELT consistently achieves 1~3pt gains compared to the best individual PELT method that it incorporates and even outperforms fine-tuning under different setups. Moreover, UniPELT often surpasses the upper bound when taking the best performance of all its submodules used individually on each task, indicating that a mixture of multiple PELT methods may be inherently more effective than single methods.
翻訳日:2021-10-15 12:30:42 公開日:2021-10-14
# (参考訳) 最初に学ぶべきサンプルは? 簡単かハードか?

Which Samples Should be Learned First: Easy or Hard? ( http://arxiv.org/abs/2110.05481v2 )

ライセンス: CC BY 4.0
Xiaoling Zhou and Ou Wu(参考訳) トレーニングサンプルの効果的な重み付け方式は、学習タスクに不可欠である。 多くの重み付けスキームが提案されている。 いくつかのスキームはサンプルのイージーファーストモードを取るが、他のスキームはハードファーストモードを取る。 当然、興味深いが現実的な疑問が提起される。 最初に学習すべきサンプルは、簡単なものか、難しいものか? この質問に答えるために、研究の3つの側面が実行される。 まず、高レベル統一重み付き損失を提案し、既存のスキームのより包括的なビューを提供する。 その後,理論解析を行い,予備的な結論を得る。 第2に,既存のスキームの欠陥を克服するためのフレキシブル重み付けスキームを提案する。 提案方式では,3モード,すなわちeasy/medium/hard-fir stを柔軟に切り替えることができる。 第3に、異なるモードにおける重み付けスキームを更に比較するために、幅広い実験が行われた。 これらの研究に基づいて、合理的な答えが得られる。 先行知識やデータ特性を含む要因は、学習タスクで最初に学習すべきサンプルを決定する。

An effective weighting scheme for training samples is essential for learning tasks. Numerous weighting schemes have been proposed. Some schemes take the easy-first mode on samples, whereas some others take the hard-first mode. Naturally, an interesting yet realistic question is raised. Which samples should be learned first given a new learning task, easy or hard? To answer this question, three aspects of research are carried out. First, a high-level unified weighted loss is proposed, providing a more comprehensive view for existing schemes. Theoretical analysis is subsequently conducted and preliminary conclusions are obtained. Second, a flexible weighting scheme is proposed to overcome the defects of existing schemes. The three modes, namely, easy/medium/hard-fir st, can be flexibly switched in the proposed scheme. Third, a wide range of experiments are conducted to further compare the weighting schemes in different modes. On the basis of these works, reasonable answers are obtained. Factors including prior knowledge and data characteristics determine which samples should be learned first in a learning task.
翻訳日:2021-10-15 11:33:18 公開日:2021-10-14
# (参考訳) 少数ショット画像分類のためのプロトタイプ分類器について [全文訳有]

A Closer Look at Prototype Classifier for Few-shot Image Classification ( http://arxiv.org/abs/2110.05076v3 )

ライセンス: CC BY-SA 4.0
Mingcheng Hou and Issei Sato(参考訳) prototypical networkはメタラーニングに基づくプロトタイプ分類器であり、メタテスト中にハイパーパラメータを調整せずにクラス固有のプロトタイプを構築して、見当たらない例を分類することで、少数の学習に広く使われている。 興味深いことに、近年の研究では、メタラーニングアルゴリズムを使用しない線形分類器が、原型ネットワークと互換性を持って動作していることが示されている。 しかし、微調整には、新しい環境にモデルを適用する際に追加のハイパーパラメータが必要である。 さらに、数少ない学習の目的はモデルが新しい環境に素早く適応できるようにすることであるが、新しいクラスが現れるたびに微調整を適用する必要があるため、迅速な適応が困難になる。 本稿では,プロトタイプ分類器が微調整やメタ学習を伴わずに等しく機能するかを解析する。 実験により, 標準事前学習モデルを用いて抽出された特徴ベクトルを直接使用して, メタテストにおけるプロトタイプ分類器は, 事前学習モデルの微調整と特徴ベクトルを用いた原型ネットワークや線形分類器と同様に機能しないことがわかった。 そこで,本論文では,特徴ベクトルのノルムの分散に着目することで,性能を向上させることができることを示す。 ノルムの分散を最小化するためのいくつかの正規化法を実験的に検討し、l2正規化と埋め込み空間変換を用いて、微調整やメタラーニングを行わずに同じ性能が得られることを見出した。

The prototypical network is a prototype classifier based on meta-learning and is widely used for few-shot learning because it classifies unseen examples by constructing class-specific prototypes without adjusting hyper-parameters during meta-testing. Interestingly, recent research has attracted a lot of attention, showing that a linear classifier with fine-tuning, which does not use a meta-learning algorithm, performs comparably with the prototypical network. However, fine-tuning requires additional hyper-parameters when adapting a model to a new environment. In addition, although the purpose of few-shot learning is to enable the model to quickly adapt to a new environment, fine-tuning needs to be applied every time a new class appears, making fast adaptation difficult. In this paper, we analyze how a prototype classifier works equally well without fine-tuning and meta-learning. We experimentally found that directly using the feature vector extracted using standard pre-trained models to construct a prototype classifier in meta-testing does not perform as well as the prototypical network and linear classifiers with fine-tuning and feature vectors of pre-trained models. Thus, we derive a novel generalization bound for the prototypical network and show that focusing on the variance of the norm of a feature vector can improve performance. We experimentally investigated several normalization methods for minimizing the variance of the norm and found that the same performance can be obtained by using the L2 normalization and embedding space transformation without fine-tuning or meta-learning.
翻訳日:2021-10-15 11:32:27 公開日:2021-10-14
# (参考訳) CLIP4Caption ++: ビデオキャプチャ用のマルチCLIP [全文訳有]

CLIP4Caption ++: Multi-CLIP for Video Caption ( http://arxiv.org/abs/2110.05204v3 )

ライセンス: CC BY 4.0
Mingkang Tang, Zhanyu Wang, Zhaoyang Zeng, Fengyun Rao, Dian Li(参考訳) 本報告では,キャプションタスクにおけるVALUE Challenge 2021に対するソリューションについて述べる。 私たちのソリューションはCLIP4Caption++と呼ばれ、エンコーダデコーダアーキテクチャを備えた高度なモデルであるX-Linear/X-Transform er上に構築されています。 提案する clip4caption++ では,次のような改善がなされています。 先進的なエンコーダ-デコーダモデルアーキテクチャ x-transformer をメインフレームワークとして採用し,次のような改善を行っています。 1) 3つの強化されたCLIPモデルを用いて,テキスト関連視覚特徴を抽出する。 2)データ強化にはTSNサンプリング戦略を採用する。 3)よりリッチな意味情報を提供するために,ビデオ字幕情報を含む。 3) 視覚的特徴と融合した字幕情報を導入する。 4)単語レベルおよび文レベルのアンサンブル戦略を設計する。 提案手法は,VATEX,YC2C,TVCの各データセットに対して,86.5,148.4,64.5 CIDErスコアを達成し,提案したCLIP4Caption++の3つのデータセットに対して,優れた性能を示す。

This report describes our solution to the VALUE Challenge 2021 in the captioning task. Our solution, named CLIP4Caption++, is built on X-Linear/X-Transform er, which is an advanced model with encoder-decoder architecture. We make the following improvements on the proposed CLIP4Caption++: We employ an advanced encoder-decoder model architecture X-Transformer as our main framework and make the following improvements: 1) we utilize three strong pre-trained CLIP models to extract the text-related appearance visual features. 2) we adopt the TSN sampling strategy for data enhancement. 3) we involve the video subtitle information to provide richer semantic information. 3) we introduce the subtitle information, which fuses with the visual features as guidance. 4) we design word-level and sentence-level ensemble strategies. Our proposed method achieves 86.5, 148.4, 64.5 CIDEr scores on VATEX, YC2C, and TVC datasets, respectively, which shows the superior performance of our proposed CLIP4Caption++ on all three datasets.
翻訳日:2021-10-15 11:07:12 公開日:2021-10-14
# (参考訳) 時相言語モデルのための時間マスキング [全文訳有]

Time Masking for Temporal Language Models ( http://arxiv.org/abs/2110.06366v2 )

ライセンス: CC BY 4.0
Guy D. Rosin, Ido Guy, Kira Radinsky(参考訳) 私たちの世界は常に進化し続けており、web上のコンテンツもそうである。 それゆえ、我々の言語は、しばしば世界を反映していると言われるが、自然界では動的である。 しかし、現在のコンテキスト言語モデルは静的であり、時間とともに変更に適応できない。 本研究では,テキストの追加文脈として時間を用いるテンポバーストという時間的文脈言語モデルを提案する。 本手法は,時相情報によるテキストの修正と時間マスキング(補足時間情報に対する特定のマスキング)に基づく。 我々は,意味変化の検出と文時間予測のタスクにアプローチを活用し,時間,サイズ,ジャンル,言語といったさまざまなデータセットを実験する。 広範な評価の結果,両タスクとも時間マスキングのメリットが示された。

Our world is constantly evolving, and so is the content on the web. Consequently, our languages, often said to mirror the world, are dynamic in nature. However, most current contextual language models are static and cannot adapt to changes over time. In this work, we propose a temporal contextual language model called TempoBERT, which uses time as an additional context of texts. Our technique is based on modifying texts with temporal information and performing time masking - specific masking for the supplementary time information. We leverage our approach for the tasks of semantic change detection and sentence time prediction, experimenting on diverse datasets in terms of time, size, genre, and language. Our extensive evaluation shows that both tasks benefit from exploiting time masking.
翻訳日:2021-10-15 11:01:33 公開日:2021-10-14
# (参考訳) NPIVモデルの効率的な推定:様々なニューラルネットワークに基づく推定器の比較

Efficient Estimation in NPIV Models: A Comparison of Various Neural Networks-Based Estimators ( http://arxiv.org/abs/2110.06763v2 )

ライセンス: CC BY 4.0
Jiafeng Chen, Xiaohong Chen, Elie Tamer(参考訳) 経済学における経験的研究に関連する高次元共変量の半非パラメトリックインストゥルメンタル変数(npiv)モデルにおける人工ニューラルネットワーク(anns)の計算性能について検討する。 我々は,期待関数(重み付き平均微分など)の効率的な推定と推定に焦点をあて,最適基準に基づく手順(最小距離またはSMD)と新しいスコアベース手順(ES)を用いる。 どちらの手順もアンを使って未知の関数を近似する。 次に,これら2種類の推定器を実装するための詳細な実践者のレシピを提供する。 これには、未知の関数(条件付き期待を含む)のチューニングパラメータの選択と、smdにおける最適重みの推定の選択と、es推定器で使用されるriesz表現器の両方が含まれる。 最後に、大規模な回帰器(最大13個の連続)と、様々な基礎となる非線形性と共変量相関を含む複雑な設計における有限サンプル性能を比較するモンテカルロ実験を行う。 結果から得られたいくつかの内容は以下のとおりである。 1) チューニングと最適化は特に非凸であるため微妙である。 2) ANNの様々なアーキテクチャは、私たちが考慮し、適切なチューニングを与えられた設計では重要でないように思われる。 3) ANN推定器では安定な推測がより困難である。 4) SMDに基づく最適推定器は、適切に動作する。 5) 実装理論と近似理論の間にはギャップがあるようである。 最後に、ANN NPIVを用いて、平均価格弾力性と平均デリバティブを2つの需要例で推定する。

We investigate the computational performance of Artificial Neural Networks (ANNs) in semi-nonparametric instrumental variables (NPIV) models of high dimensional covariates that are relevant to empirical work in economics. We focus on efficient estimation of and inference on expectation functionals (such as weighted average derivatives) and use optimal criterion-based procedures (sieve minimum distance or SMD) and novel efficient score-based procedures (ES). Both these procedures use ANN to approximate the unknown function. Then, we provide a detailed practitioner's recipe for implementing these two classes of estimators. This involves the choice of tuning parameters both for the unknown functions (that include conditional expectations) but also for the choice of estimation of the optimal weights in SMD and the Riesz representers used with the ES estimators. Finally, we conduct a large set of Monte Carlo experiments that compares the finite-sample performance in complicated designs that involve a large set of regressors (up to 13 continuous), and various underlying nonlinearities and covariate correlations. Some of the takeaways from our results include: 1) tuning and optimization are delicate especially as the problem is nonconvex; 2) various architectures of the ANNs do not seem to matter for the designs we consider and given proper tuning, ANN methods perform well; 3) stable inferences are more difficult to achieve with ANN estimators; 4) optimal SMD based estimators perform adequately; 5) there seems to be a gap between implementation and approximation theory. Finally, we apply ANN NPIV to estimate average price elasticity and average derivatives in two demand examples.
翻訳日:2021-10-15 10:44:25 公開日:2021-10-14
# Mengzi:中国向けの軽量で独創的な事前訓練モデルを目指して

Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese ( http://arxiv.org/abs/2110.06696v2 )

ライセンス: Link先を確認
Zhuosheng Zhang, Hanqing Zhang, Keming Chen, Yuhang Guo, Jingyun Hua, Yulong Wang, Ming Zhou(参考訳) プレトレーニングモデル(PLM)は、幅広いNLPタスクにおいて顕著に改善されているが、時間と資源の面では高価である。 これにより、より効率的なモデルをより少ない計算で訓練するが、それでも優れた性能を保証できる。 大規模を追求する代わりに、同等あるいは少ない計算で訓練された軽量でより強力なモデルの開発を約束しています。 この技術レポートは、差別的、生成的、ドメイン固有、マルチモーダルな事前訓練されたモデルのファミリーで、幅広い言語とビジョンタスクをこなせる、Mengziと呼ばれる事前訓練済みモデルをリリースします。 公共の中国のplmと比較すると、mengziはシンプルだが強力だ。 当社の軽量モデルは,事前トレーニングと微調整の最適化によって,広く使用されている手掛かりベンチマークで新たな最先端結果を達成しました。 モデルアーキテクチャを変更することなく、我々のモデルは既存のPLMの代替として簡単に利用できる。 ソースはhttps://github.com/l angboat/mengzi.comから入手できます。

Although pre-trained models (PLMs) have achieved remarkable improvements in a wide range of NLP tasks, they are expensive in terms of time and resources. This calls for the study of training more efficient models with less computation but still ensures impressive performance. Instead of pursuing a larger scale, we are committed to developing lightweight yet more powerful models trained with equal or less computation and friendly to rapid deployment. This technical report releases our pre-trained model called Mengzi, which stands for a family of discriminative, generative, domain-specific, and multimodal pre-trained model variants, capable of a wide range of language and vision tasks. Compared with public Chinese PLMs, Mengzi is simple but more powerful. Our lightweight model has achieved new state-of-the-art results on the widely-used CLUE benchmark with our optimized pre-training and fine-tuning techniques. Without modifying the model architecture, our model can be easily employed as an alternative to existing PLMs. Our sources are available at https://github.com/L angboat/Mengzi.
翻訳日:2021-10-15 10:42:53 公開日:2021-10-14
# LaoPLM: Laoの事前トレーニング言語モデル

LaoPLM: Pre-trained Language Models for Lao ( http://arxiv.org/abs/2110.05896v3 )

ライセンス: Link先を確認
Nankai Lin and Yingwen Fu and Chuwei Chen and Ziyu Yang and Shengyi Jiang(参考訳) 大規模なコーパスで訓練されたプレトレーニング言語モデル(PLM)は、コンテキストにおける異なるレベルの概念をキャプチャし、普遍的な言語表現を生成する。 複数の下流自然言語処理(NLP)タスクの恩恵を受けることができる。 PTMは、ほとんどのNLPアプリケーション、特に英語などの高リソース言語で広く使われているが、Lao NLP研究ではあまり使われていない。 laoの以前の作業は、注釈付きデータセットの欠如と言語リソースのスパースによって妨げられている。 本研究では,lao言語の資源管理状況を軽減するために,テキスト分類データセットを構築する。 さらに, BERT-small, BERT-base, ELECTRA-small, ELECTRA-baseの4つのバージョンを持つLao用のトランスフォーマーベースのPTMを提示し, 音声タグ付けとテキスト分類という2つの下流タスクで評価する。 実験はlaoモデルの有効性を示す。 私たちは、Lao NLPアプリケーションの今後の開発を促進するために、モデルとデータセットをコミュニティにリリースします。

Trained on the large corpus, pre-trained language models (PLMs) can capture different levels of concepts in context and hence generate universal language representations. They can benefit multiple downstream natural language processing (NLP) tasks. Although PTMs have been widely used in most NLP applications, especially for high-resource languages such as English, it is under-represented in Lao NLP research. Previous work on Lao has been hampered by the lack of annotated datasets and the sparsity of language resources. In this work, we construct a text classification dataset to alleviate the resource-scare situation of the Lao language. We additionally present the first transformer-based PTMs for Lao with four versions: BERT-small, BERT-base, ELECTRA-small and ELECTRA-base, and evaluate it over two downstream tasks: part-of-speech tagging and text classification. Experiments demonstrate the effectiveness of our Lao models. We will release our models and datasets to the community, hoping to facilitate the future development of Lao NLP applications.
翻訳日:2021-10-15 10:42:35 公開日:2021-10-14
# ByteTrack:すべての検出ボックスに関連付けるマルチオブジェクトトラッキング

ByteTrack: Multi-Object Tracking by Associating Every Detection Box ( http://arxiv.org/abs/2110.06864v2 )

ライセンス: Link先を確認
Yifu Zhang, Peize Sun, Yi Jiang, Dongdong Yu, Zehuan Yuan, Ping Luo, Wenyu Liu, Xinggang Wang(参考訳) マルチオブジェクトトラッキング(MOT)は、ビデオ内のオブジェクトのバウンディングボックスとIDを推定することを目的としている。 ほとんどの方法は、スコアが閾値より高い検出ボックスを関連付けることで同一性を得る。 検出スコアの低いオブジェクト(例えばoccluded object)は、単に捨てられるだけで、不要な真のオブジェクトが欠落し、断片化されたトラジェクタになる。 そこで本研究では,高得点のみでなく,すべての検出ボックスを関連付けて追跡する,単純で効果的で汎用的な連想法であるbyteを提案する。 低スコア検出ボックスでは、トラックレットとの類似性を利用して真のオブジェクトを復元し、バックグラウンド検出をフィルタリングする。 BYTEを9種類の最先端トラッカーに適用し、1点から10点までのIDF1スコアを一貫した改善を実現した。 MOTの最先端性能を推し進めるため,我々はByteTrackというシンプルで強力なトラッカーを設計した。 1つのv100 gpu上で30fpsの速度を持つmot17のテストセットで、初めて80.3 mota、77.3 idf1、63.1 hotaを達成しました。 ソースコード、デプロイされたバージョンと他のトラッカーに適用するチュートリアルはhttps://github.com/i fzhang/bytetrack.com で公開されている。

Multi-object tracking (MOT) aims at estimating bounding boxes and identities of objects in videos. Most methods obtain identities by associating detection boxes whose scores are higher than a threshold. The objects with low detection scores, e.g. occluded objects, are simply thrown away, which brings non-negligible true object missing and fragmented trajectories. To solve this problem, we present a simple, effective and generic association method, called BYTE, tracking BY associaTing Every detection box instead of only the high score ones. For the low score detection boxes, we utilize their similarities with tracklets to recover true objects and filter out the background detections. We apply BYTE to 9 different state-of-the-art trackers and achieve consistent improvement on IDF1 score ranging from 1 to 10 points. To put forwards the state-of-the-art performance of MOT, we design a simple and strong tracker, named ByteTrack. For the first time, we achieve 80.3 MOTA, 77.3 IDF1 and 63.1 HOTA on the test set of MOT17 with 30 FPS running speed on a single V100 GPU. The source code, pre-trained models with deploy versions and tutorials of applying to other trackers are released at https://github.com/i fzhang/ByteTrack.
翻訳日:2021-10-15 10:42:14 公開日:2021-10-14
# カーネル拡散を用いた密度ベースクラスタリング

Density-Based Clustering with Kernel Diffusion ( http://arxiv.org/abs/2110.05096v3 )

ライセンス: Link先を確認
Chao Zheng, Yingjie Chen, Chong Chen, Jianqiang Huang, Xian-Sheng Hua(参考訳) DBSCANやDPCのような密度に基づくクラスタリングアルゴリズムには,適切な密度関数の探索が不可欠である。 これらのアルゴリズムでは、単位 $d$-次元ユークリッド球の表示関数に対応するナイーブ密度が一般的に用いられる。 このような密度は、複雑なデータセットの局所的な特徴を捉えるのに苦しむ。 そこで本研究では,局所分布特性と滑らかさの異なるデータに適応した新しい核拡散密度関数を提案する。 さらに,線形時間と空間で効率的に計算できるサロゲートを開発し,核拡散密度関数に漸近同値であることを証明した。 ベンチマークおよび大規模顔画像データセットに関する広範囲な実験により、提案手法は従来の密度ベースのクラスタリングアルゴリズムよりも大幅に改善されるだけでなく、最先端の顔クラスタリング手法を大きなマージンで上回っていることが示された。

Finding a suitable density function is essential for density-based clustering algorithms such as DBSCAN and DPC. A naive density corresponding to the indicator function of a unit $d$-dimensional Euclidean ball is commonly used in these algorithms. Such density suffers from capturing local features in complex datasets. To tackle this issue, we propose a new kernel diffusion density function, which is adaptive to data of varying local distributional characteristics and smoothness. Furthermore, we develop a surrogate that can be efficiently computed in linear time and space and prove that it is asymptotically equivalent to the kernel diffusion density function. Extensive empirical experiments on benchmark and large-scale face image datasets show that the proposed approach not only achieves a significant improvement over classic density-based clustering algorithms but also outperforms the state-of-the-art face clustering methods by a large margin.
翻訳日:2021-10-15 10:41:51 公開日:2021-10-14
# 自己説明型強化学習による曖昧なデモンストレーションからの学習

Learning from Ambiguous Demonstrations with Self-Explanation Guided Reinforcement Learning ( http://arxiv.org/abs/2110.05286v2 )

ライセンス: Link先を確認
Yantian Zha, Lin Guan, and Subbarao Kambhampati(参考訳) 本研究の目的は、強化学習(RL)エージェントの訓練にあいまいなデモンストレーションを効果的に活用することである。 曖昧なデモンストレーションは通常、複数の方法で解釈され、RL-Agentが安定かつ効率的に学習することを妨げる。 最適なデモンストレーションも曖昧である可能性があるため、以前のRLと実演からの学習(RLfDの作業)を組み合わせた作業はうまくいかなかった。 このような状況に触発されて、我々は、成功軌道が成功した理由の解釈として、価値の高い高次関係特徴を認識するために自己説明(エージェント自身による説明)を使うことを提案する。 これにより、エージェントはrl学習のためのガイダンスを提供することができる。 我々の主な貢献は、従来のRLfD作品の限界を克服できるDemonstrations (SERLfD)フレームワークからの自己説明(Self-Explanation for RL)を提案することである。 実験結果から,SERLfDフレームワークを用いてRLfDモデルをトレーニング安定性と性能の観点から改善できることが示唆された。

Our work aims at efficiently leveraging ambiguous demonstrations for the training of a reinforcement learning (RL) agent. An ambiguous demonstration can usually be interpreted in multiple ways, which severely hinders the RL-Agent from learning stably and efficiently. Since an optimal demonstration may also suffer from being ambiguous, previous works that combine RL and learning from demonstration (RLfD works) may not work well. Inspired by how humans handle such situations, we propose to use self-explanation (an agent generates explanations for itself) to recognize valuable high-level relational features as an interpretation of why a successful trajectory is successful. This way, the agent can provide some guidance for its RL learning. Our main contribution is to propose the Self-Explanation for RL from Demonstrations (SERLfD) framework, which can overcome the limitations of traditional RLfD works. Our experimental results show that an RLfD model can be improved by using our SERLfD framework in terms of training stability and performance.
翻訳日:2021-10-15 10:41:37 公開日:2021-10-14
# 利用者行動モデリングと擬似レーティングによる観光客への推奨POI

Recommending POIs for Tourists by User Behavior Modeling and Pseudo-Rating ( http://arxiv.org/abs/2110.06523v2 )

ライセンス: Link先を確認
Kun Yi, Ryu Yamagishi, Taishan Li, Zhengyang Bai, Qiang Ma(参考訳) POIレコメンデーションは観光情報システムにおいて重要な課題である。 しかし、従来のPOIレコメンデーションシステムとは対照的に、利用できるデータは極めて少なく、観光客の多くは一度に数カ所の観光地を訪れ、これらのほとんどは新規観光客からのチェックインデータを持っていない。 従来のシステムのほとんどは、その人気、評判、およびユーザーの好みとカテゴリーに基づく類似度に基づいて観光スポットをランク付けしている。 これらの場所でユーザーが体験できるものを明確にしないため、多様な観光需要を満たすことは困難である。 そこで本研究では,観光客にPOIを推奨するメカニズムを提案する。 1つは観光におけるユーザ行動を明らかにする確率モデルであり、もう1つはPOIsレコメンデーションにおけるコールドスタート問題を扱うための擬似評価メカニズムである。 Flickrから収集した2つのデータセットを用いて広範な実験を行った。 その結果,提案手法は推奨性能(精度,リコール,F測定)と公正性の両方において最先端の手法よりも優れていることがわかった。 実験結果は,提案手法のロバスト性,すなわちデータスパーシティの問題を十分に処理できることを示す。

POI recommendation is a key task in tourism information systems. However, in contrast to conventional point of interest (POI) recommender systems, the available data is extremely sparse; most tourist visit a few sightseeing spots once and most of these spots have no check-in data from new tourists. Most conventional systems rank sightseeing spots based on their popularity, reputations, and category-based similarities with users' preferences. They do not clarify what users can experience in these spots, which makes it difficult to meet diverse tourism needs. To this end, in this work, we propose a mechanism to recommend POIs to tourists. Our mechanism include two components: one is a probabilistic model that reveals the user behaviors in tourism; the other is a pseudo rating mechanism to handle the cold-start issue in POIs recommendations. We carried out extensive experiments with two datasets collected from Flickr. The experimental results demonstrate that our methods are superior to the state-of-the-art methods in both the recommendation performances (precision, recall and F-measure) and fairness. The experimental results also validate the robustness of the proposed methods, i.e., our methods can handle well the issue of data sparsity.
翻訳日:2021-10-15 10:41:17 公開日:2021-10-14