このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20220406)

# 可視光を用いた有機化合物の機械学習による同定

Machine learning identification of organic compounds using visible light ( http://arxiv.org/abs/2204.11832v1 )

ライセンス: Link先を確認
Thulasi Bikku and Rub\'en A. Fritz and Yamil J. Col\'on and Felipe Herrera(参考訳) 化学化合物の同定は、科学と工学の分野において不可欠である。 レーザーベースの技術は、リモート化学の識別に十分な電子的および振動的な情報を符号化する材料の光学的応答によって、自律的な化合物検出を約束している。 これは赤外線吸収スペクトルの指紋領域を利用しており、これは個々の分子に固有の多数の吸収ピークを含んでいるため、化学同定が容易である。 しかし、可視光を用いた光学的識別は実現されていない。 紫外線から遠赤外線まで幅広い周波数の純粋な有機化合物や高分子の科学文献において、何十年もの実験屈折率データを用いて、吸収共鳴から離れた可視領域における単一波長の分散測定に基づいて、有機種を正確に識別できる機械学習分類器を開発した。 ここで提案された光学分類器は、自律的な物質識別プロトコルや応用に適用できる。

Identifying chemical compounds is essential in several areas of science and engineering. Laser-based techniques are promising for autonomous compound detection because the optical response of materials encodes enough electronic and vibrational information for remote chemical identification. This has been exploited using the fingerprint region of infrared absorption spectra, which involves a large number of absorption peaks that are unique to individual molecules, thus facilitating chemical identification. However, optical identification using visible light has not been realized. Using decades of experimental refractive index data in the scientific literature of pure organic compounds and polymers over a broad range of frequencies from the ultraviolet to the far-infrared, we develop a machine learning classifier that can accurately identify organic species based on a single-wavelength dispersive measurement in the visible spectral region, away from absorption resonances. The optical classifier proposed here could be applied to autonomous material identification protocols or applications.
翻訳日:2022-05-01 09:25:55 公開日:2022-04-06
# (参考訳) 自然言語要約のための分節列列モデルのドメイン固有微調整 [全文訳有]

Domain Specific Fine-tuning of Denoising Sequence-to-Sequence Models for Natural Language Summarization ( http://arxiv.org/abs/2204.09716v1 )

ライセンス: CC BY 4.0
Brydon Parker, Alik Sokolov, Mahtab Ahmed, Matt Kalebic, Sedef Akinli Kocak, Ofer Shai(参考訳) 長文データの要約は、医学や金融などの知識経済業務において特に問題であり、高度で進化した知識体系について継続的に情報を提供しなければならない。 このように、自然言語処理(NLP)技術を用いてキーコンテンツを自動的に分離・要約することは、これらの産業において広範な時間節約の可能性を秘めている。 我々は、最先端のNLPモデル(BART)の応用を探求し、データ拡張と様々な微調整戦略を用いて最適な性能に調整するための戦略を探る。 エンド・ツー・エンドの微調整アプローチは、ドメイン特化データでテストした場合、事前トレーニング済みのBARTサマリよりも5~6倍の絶対ROUGE-1が向上し、ファイナンス、医療、その他のユーザ特定ドメインでこれらの結果を達成するために、エンドツーエンドパイプラインを利用できることを示す。

Summarization of long-form text data is a problem especially pertinent in knowledge economy jobs such as medicine and finance, that require continuously remaining informed on a sophisticated and evolving body of knowledge. As such, isolating and summarizing key content automatically using Natural Language Processing (NLP) techniques holds the potential for extensive time savings in these industries. We explore applications of a state-of-the-art NLP model (BART), and explore strategies for tuning it to optimal performance using data augmentation and various fine-tuning strategies. We show that our end-to-end fine-tuning approach can result in a 5-6\% absolute ROUGE-1 improvement over an out-of-the-box pre-trained BART summarizer when tested on domain specific data, and make available our end-to-end pipeline to achieve these results on finance, medical, or other user-specified domains.
翻訳日:2022-04-24 20:56:13 公開日:2022-04-06
# TalkMovesのデータセット:K-12数学の授業に教師と学生のディサーシブ・ムーブに注釈を付ける

The TalkMoves Dataset: K-12 Mathematics Lesson Transcripts Annotated for Teacher and Student Discursive Moves ( http://arxiv.org/abs/2204.09652v1 )

ライセンス: Link先を確認
Abhijit Suresh, Jennifer Jacobs, Charis Harty, Margaret Perkoff, James H. Martin, Tamara Sumner(参考訳) 授業内容の書き起こしは,授業指導における談話パターンを理解する上で有効である。 多くの教育専門家によると、持続的な教室の談話は、学生にとって平等でエンゲージメントがあり、豊かな学習環境の重要な要素である。 本稿では,ビデオ記録から得られた567個のk-12数学授業記録(授業全体や授業の一部を含む)からなるtalkmovesデータセットについて述べる。 書き起こしのセットには、主に、クラス全体の議論や小さなグループワークによる個人レッスン、およびいくつかのオンラインレッスンが含まれる。 すべての書き起こしは、話者(教師または学生)によって分割され、説明可能な話理論に基づいた10の逆行に対して文レベルで注釈付けされる。 さらに、この転写文には、スイッチボードダイアログ法コーパスに基づく対話行為ラベルの形式での発話レベル情報が含まれている。 このデータセットは、教育者、政策立案者、研究者によってK-12の数学教室における教師と生徒の談話の性質を理解するために利用できる。 このデータセットのポートはTalkMovesアプリケーションの開発に使われており、教師に数学の指導に関する自動的、即時的で実行可能なフィードバックを提供する。

Transcripts of teaching episodes can be effective tools to understand discourse patterns in classroom instruction. According to most educational experts, sustained classroom discourse is a critical component of equitable, engaging, and rich learning environments for students. This paper describes the TalkMoves dataset, composed of 567 human-annotated K-12 mathematics lesson transcripts (including entire lessons or portions of lessons) derived from video recordings. The set of transcripts primarily includes in-person lessons with whole-class discussions and/or small group work, as well as some online lessons. All of the transcripts are human-transcribed, segmented by the speaker (teacher or student), and annotated at the sentence level for ten discursive moves based on accountable talk theory. In addition, the transcripts include utterance-level information in the form of dialogue act labels based on the Switchboard Dialog Act Corpus. The dataset can be used by educators, policymakers, and researchers to understand the nature of teacher and student discourse in K-12 math classrooms. Portions of this dataset have been used to develop the TalkMoves application, which provides teachers with automated, immediate, and actionable feedback about their mathematics instruction.
翻訳日:2022-04-24 15:44:10 公開日:2022-04-06
# (参考訳) IMLE-Net:ECG分類のための解釈可能なマルチレベルマルチチャネルモデル [全文訳有]

IMLE-Net: An Interpretable Multi-level Multi-channel Model for ECG Classification ( http://arxiv.org/abs/2204.05116v1 )

ライセンス: CC BY-SA 4.0
Likith Reddy, Vivek Talwar, Shanmukh Alle, Raju. S. Bapi, U. Deva Priyakumar(参考訳) 心血管疾患の早期発見は治療に不可欠であり,心電図(ECG)は診断に重要である。 近年,心電図信号分類のためのディープラーニングに基づく手法の精度が向上し,心臓科レベルの評価が進んでいる。 臨床では、心臓科医が標準12チャンネル心電図記録に基づいて診断を行う。 マルチチャネルの観点からのECG記録の自動解析は十分に注目されていないため,マルチチャネルの観点からのECG記録の分析が不可欠である。 標準12チャンネルのECG記録で利用可能なマルチチャネル情報を利用して、ビート、リズム、チャンネルレベルのパターンを学習するモデルを提案する。 PTB-XLデータセットでは,マクロ平均ROC-AUCスコアが0.9216,平均精度88.85\%,最大F1スコアが0.8057であった。 解釈可能なモデルによる注意の可視化結果は、心臓科医のガイドラインと比較し、正確性とユーザビリティを検証した。

Early detection of cardiovascular diseases is crucial for effective treatment and an electrocardiogram (ECG) is pivotal for diagnosis. The accuracy of Deep Learning based methods for ECG signal classification has progressed in recent years to reach cardiologist-level performance. In clinical settings, a cardiologist makes a diagnosis based on the standard 12-channel ECG recording. Automatic analysis of ECG recordings from a multiple-channel perspective has not been given enough attention, so it is essential to analyze an ECG recording from a multiple-channel perspective. We propose a model that leverages the multiple-channel information available in the standard 12-channel ECG recordings and learns patterns at the beat, rhythm, and channel level. The experimental results show that our model achieved a macro-averaged ROC-AUC score of 0.9216, mean accuracy of 88.85\%, and a maximum F1 score of 0.8057 on the PTB-XL dataset. The attention visualization results from the interpretable model are compared against the cardiologist's guidelines to validate the correctness and usability.
翻訳日:2022-04-17 07:38:33 公開日:2022-04-06
# (参考訳) 線形力学系による非定常リワードを有する確率的マルチアームバンド [全文訳有]

Stochastic Multi-armed Bandits with Non-stationary Rewards Generated by a Linear Dynamical System ( http://arxiv.org/abs/2204.05782v1 )

ライセンス: CC BY 4.0
Jonathan Gornet, Mehdi Hosseinzadeh, Bruno Sinopoli(参考訳) 確率的マルチアームバンディットは未知の環境で意思決定を研究するための枠組みを提供している。 本稿では,確率的線形力学系から報酬をサンプリングする確率的マルチアームバンディットの変種を提案する。 この確率的マルチアームバンディット変種に対する提案手法は、学習モデルに基づいて最適な動作を選択しながら、力学系のモデルを学ぶことである。 メルトンが提案した時間的資本資産価格モデルやフェルンホルツが提唱した確率的ポートフォリオ理論のような数学的な金融分野に動機づけられ、この戦略は確率的微分方程式を伴うモデル資産のリターンを確率的金融戦略として量的金融に適用される。

The stochastic multi-armed bandit has provided a framework for studying decision-making in unknown environments. We propose a variant of the stochastic multi-armed bandit where the rewards are sampled from a stochastic linear dynamical system. The proposed strategy for this stochastic multi-armed bandit variant is to learn a model of the dynamical system while choosing the optimal action based on the learned model. Motivated by mathematical finance areas such as Intertemporal Capital Asset Pricing Model proposed by Merton and Stochastic Portfolio Theory proposed by Fernholz that both model asset returns with stochastic differential equations, this strategy is applied to quantitative finance as a high-frequency trading strategy, where the goal is to maximize returns within a time period.
翻訳日:2022-04-17 07:26:29 公開日:2022-04-06
# RSSIとクラウドセンシングに基づくドメイン逆グラフ畳み込みネットワークによる屋内ローカライゼーション

Domain Adversarial Graph Convolutional Network Based on RSSI and Crowdsensing for Indoor Localization ( http://arxiv.org/abs/2204.05184v1 )

ライセンス: Link先を確認
Mingxin Zhang, Zipei Fan, Ryosuke Shibasaki and Xuan Song(参考訳) 近年,Wi-Fiの普及とモバイル通信機器の普及により,WiFi指紋を用いた屋内位置決め技術が急速に発展してきた。 現在、ほとんどの教師付き手法は、労働集約的で時間を要する指紋データセットを構築するために大量のデータを集める必要がある。 そこで我々は,いくつかのラベル付きサイトサーベイデータと未ラベルのWiFi指紋でトレーニングできる新しいWiDAGCNモデルを提案した。 データのトポロジ構造を包括的に表現するために,受信信号強度指標 (rssis) とwi-fiアクセスポイント (aps) との間の異種グラフを構築した。 我々は,従来のWiFi屋内ローカライゼーション研究にはほとんど関わらなかったグラフ畳み込みネットワーク(GCN)手法とグラフレベルの特徴の表現に焦点を当てた。 そこで,本研究では,対象ドメインと対象ドメインの差を最小限に抑え,対象ドメイン内のラベルなしデータを完全に活用する。 異なる建物を含む公共屋内位置推定データセットを用いて,モデルの性能評価を行った。 実験の結果,ショッピングモールなどの大規模建物において,本システムは競争力のあるローカライズ精度を達成できることが示唆された。

In recent years, due to the wider WiFi coverage and the popularization of mobile communication devices, the technology of indoor positioning using WiFi fingerprints has been rapidly developed. Currently, most supervised methods need to collect a large amount of data to construct fingerprint datasets, which is labor-intensive and time-consuming. To solve the problem, we proposed a novel WiDAGCN model that can be trained with a few labeled site survey data and unlabeled crowdsensing WiFi fingerprints. To comprehensively represent the topology structure of the data, we constructed heterogeneous graphs according to the received signal strength indicators (RSSIs) between the waypoints and WiFi access points (APs). We focus on the graph convolutional network (GCN) method and the representation of graph-level features, which were rarely involved in previous WiFi indoor localization studies. Then, we try to minimize the difference between the source and target domains and make full use of the unlabeled data in the target domain using the domain adversarial training scheme. A public indoor localization dataset containing different buildings was used to evaluate the performance of the model. The experimental results show that our system can achieve a competitive localization accuracy in large buildings such as shopping malls.
翻訳日:2022-04-17 07:09:10 公開日:2022-04-06
# (参考訳) GlacierNet2:アルプス氷河マッピングのためのハイブリッドマルチモデル学習アーキテクチャ

GlacierNet2: A Hybrid Multi-Model Learning Architecture for Alpine Glacier Mapping ( http://arxiv.org/abs/2204.05818v1 )

ライセンス: CC BY 4.0
Zhiyuan Xie, Umesh K. Haritashya, Vijayan K. Asari, Michael P. Bishop, Jeffrey S. Kargel, Theus H. Aspiras(参考訳) 近年、気候変動は氷河の動態に大きく影響し、質量減少と氷河関連のリスクが増加し、超氷河湖や氷河湖が発達し、破滅的なアウトバースト洪水が発生した。 急速に変化する条件は、継続的かつ詳細な観測と気候-氷河力学の分析の必要性を規定している。 氷河幾何学に関するテーマ的かつ定量的な情報は、気候変動に対する氷河の強制力や感受性を理解するのに不可欠であるが、スペクトル情報と従来の機械学習技術を用いて、デブリ被覆氷河(DCG)を正確にマッピングすることは、非常に難しい。 本研究の目的は、畳み込みニューラルネットワークセグメンテーションモデルを利用して、地域のDCGアブレーションゾーンを正確に概説する、先進的なディープラーニングベースのアプローチであるGlacierNetを改善することである。 具体的には,複数のモデル,自動後処理,流域レベルの水流を組み込んだGlacierNet2アーキテクチャを改良し,アブレーションと蓄積ゾーンの両方を含むDCGのマッピングを改善した。 実験的評価により、glaciernet2はアブレーションゾーンの推定を改善し、結合点(iou: 0.8839)の高レベルな交叉を可能にした。 提案されたアーキテクチャは、全氷河(堆積帯とアブレーション帯)を地域規模で概観し、IOU全体のスコアは0.8619である。 これは氷河の正確なモデリングや質量収支分析に使用できる完全な氷河マッピングを自動化する上で重要な第一歩である。

In recent decades, climate change has significantly affected glacier dynamics, resulting in mass loss and an increased risk of glacier-related hazards including supraglacial and proglacial lake development, as well as catastrophic outburst flooding. Rapidly changing conditions dictate the need for continuous and detailed observations and analysis of climate-glacier dynamics. Thematic and quantitative information regarding glacier geometry is fundamental for understanding climate forcing and the sensitivity of glaciers to climate change, however, accurately mapping debris-cover glaciers (DCGs) is notoriously difficult based upon the use of spectral information and conventional machine-learning techniques. The objective of this research is to improve upon an earlier proposed deep-learning-based approach, GlacierNet, which was developed to exploit a convolutional neural-network segmentation model to accurately outline regional DCG ablation zones. Specifically, we developed an enhanced GlacierNet2 architecture thatincorporates multiple models, automatic post-processing, and basin-level hydrological flow techniques to improve the mapping of DCGs such that it includes both the ablation and accumulation zones. Experimental evaluations demonstrate that GlacierNet2 improves the estimation of the ablation zone and allows a high level of intersection over union (IOU: 0.8839) score. The proposed architecture provides complete glacier (both accumulation and ablation zone) outlines at regional scales, with an overall IOU score of 0.8619. This is a crucial first step in automating complete glacier mapping that can be used for accurate glacier modeling or mass-balance analysis.
翻訳日:2022-04-17 06:44:30 公開日:2022-04-06
# 構造認識タンパク質自己教師付き学習

Structure-aware Protein Self-supervised Learning ( http://arxiv.org/abs/2204.04213v1 )

ライセンス: Link先を確認
Can Chen, Jingbo Zhou, Fan Wang, Xue Liu, and Dejing Dou(参考訳) タンパク質表現学習法は、多くの下流タスク、特にタンパク質分類において有用な表現をもたらす大きな可能性を示している。 さらに、近年の研究では、自己教師付き学習手法で不十分なタンパク質のラベルに対処する大きな可能性を示している。 しかし、既存のタンパク質言語モデルは通常、重要なタンパク質構造情報を考慮せずにタンパク質配列で事前訓練される。 そこで本研究では,タンパク質の構造情報を効果的に把握する構造認識型タンパク質自己教師学習法を提案する。 特に、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練し、それぞれ2つの残差距離パースペクティブと2面角パースペクティブから自己教師付きタスクでタンパク質構造情報を保存する。 さらに,タンパク質配列に事前学習したタンパク質言語モデルを活用し,自己教師付き学習を強化することを提案する。 具体的には、タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を、新しい擬似二段階最適化手法を用いて同定する。 複数の教師付きダウンストリームタスクにおける実験により,提案手法の有効性が検証された。

Protein representation learning methods have shown great potential to yield useful representation for many downstream tasks, especially on protein classification. Moreover, a few recent studies have shown great promise in addressing insufficient labels of proteins with self-supervised learning methods. However, existing protein language models are usually pretrained on protein sequences without considering the important protein structural information. To this end, we propose a novel structure-aware protein self-supervised learning method to effectively capture structural information of proteins. In particular, a well-designed graph neural network (GNN) model is pretrained to preserve the protein structural information with self-supervised tasks from a pairwise residue distance perspective and a dihedral angle perspective, respectively. Furthermore, we propose to leverage the available protein language model pretrained on protein sequences to enhance the self-supervised learning. Specifically, we identify the relation between the sequential information in the protein language model and the structural information in the specially designed GNN model via a novel pseudo bi-level optimization scheme. Experiments on several supervised downstream tasks verify the effectiveness of our proposed method.
翻訳日:2022-04-17 06:41:39 公開日:2022-04-06
# bertベースの分類器がニュース記事、reddit投稿、ツイートから抽出した投資家感情を用いた暗号通貨リターン予測

Cryptocurrency Return Prediction Using Investor Sentiment Extracted by BERT-Based Classifiers from News Articles, Reddit Posts and Tweets ( http://arxiv.org/abs/2204.05781v1 )

ライセンス: Link先を確認
Duygu Ider(参考訳) 本稿では、投資家の感情が仮想通貨リターン予測にどの程度貢献するかを考察する。 投資家の感情は、この特定のテキストデータに基づいて微調整されたBERTベースの分類器を使用して、ニュース記事、Reddit投稿、ツイートから抽出される。 このデータはラベルが付かないので、ゼロショット分類器を用いた擬似ラベルによる弱い監督アプローチが用いられる。 次に、さまざまな機械学習モデルを用いて感情の寄与を調べる。 各モデルは、感情のないデータで個別にトレーニングされる。 結論として、モデルがまとめて分析されると、センチメントは予測精度が高くなり、追加の投資利益をもたらすが、全てのモデルに当てはまるわけではない。

This paper studies the extent at which investor sentiment contributes to cryptocurrency return prediction. Investor sentiment is extracted from news articles, Reddit posts and Tweets using BERT-based classifiers fine-tuned on this specific text data. As this data is unlabeled, a weak supervision approach by pseudo-labeling using a zero-shot classifier is used. Contribution of sentiment is then examined using a variety of machine learning models. Each model is trained on data with and without sentiment separately. The conclusion is that sentiment leads to higher prediction accuracy and additional investment profit when the models are analyzed collectively, although this does not hold true for every single model.
翻訳日:2022-04-17 06:39:49 公開日:2022-04-06
# (参考訳) 人間ライクな音声認識におけるニューラルネットワークの成功と批判的失敗 [全文訳有]

Successes and critical failures of neural networks in capturing human-like speech recognition ( http://arxiv.org/abs/2204.03740v1 )

ライセンス: CC BY 4.0
Federico Adolfi, Jeffrey S. Bowers, David Poeppel(参考訳) 自然と人工のオーディションは原則として、与えられた問題に対する様々な解決策を進化させることができる。 しかし、タスクの制約は、オーディションの認知科学と工学を質的に収束させる可能性があり、より緊密な相互検査は、人工聴覚システムと心と脳のプロセスモデルを改善することを示唆している。 このような探索のための領域である音声認識は、本質的に人間には様々な分光時間的粒度の多数の変換に対して堅牢である。 これらの堅牢性プロファイルは、ハイパフォーマンスニューラルネットワークシステムによってどの程度まで説明されていますか? ニューラルネットワークを刺激計算可能な最適化オブザーバとして評価するために,単一合成モデルに基づく音声認識実験を行った。 In a series of experiments, we (1) clarify how influential speech manipulations in the literature relate to each other and to natural speech, (2) show the granularities at which machines exhibit out-of-distribution robustness, reproducing classical perceptual phenomena in humans, (3) identify the specific conditions where model predictions of human performance differ, and (4) demonstrate a crucial failure of all artificial systems to perceptually recover where humans do, suggesting a key specification for theory and model building. これらの知見は、認知科学とオーディションの工学との密接な相乗効果を促進する。

Natural and artificial audition can in principle evolve different solutions to a given problem. The constraints of the task, however, can nudge the cognitive science and engineering of audition to qualitatively converge, suggesting that a closer mutual examination would improve artificial hearing systems and process models of the mind and brain. Speech recognition - an area ripe for such exploration - is inherently robust in humans to a number transformations at various spectrotemporal granularities. To what extent are these robustness profiles accounted for by high-performing neural network systems? We bring together experiments in speech recognition under a single synthesis framework to evaluate state-of-the-art neural networks as stimulus-computable, optimized observers. In a series of experiments, we (1) clarify how influential speech manipulations in the literature relate to each other and to natural speech, (2) show the granularities at which machines exhibit out-of-distribution robustness, reproducing classical perceptual phenomena in humans, (3) identify the specific conditions where model predictions of human performance differ, and (4) demonstrate a crucial failure of all artificial systems to perceptually recover where humans do, suggesting a key specification for theory and model building. These findings encourage a tighter synergy between the cognitive science and engineering of audition.
翻訳日:2022-04-12 00:56:44 公開日:2022-04-06
# (参考訳) PlutoNet: 効率的なポリプセグメンテーションネットワーク [全文訳有]

PlutoNet: An Efficient Polyp Segmentation Network ( http://arxiv.org/abs/2204.03652v1 )

ライセンス: CC BY 4.0
Tugberk Erol and Duygu Sarikaya(参考訳) 大腸のポリープは早期の介入で除去されないと癌細胞になることがある。 ディープラーニングモデルは、専門家が気づかないポリプの数を最小化し、検出されたポリプを正確に分割するために使用される。 これらのモデルはこれらのタスクでうまく機能するが、パラメータが多すぎるため、リアルタイムアプリケーションでは問題が発生する可能性がある。 そこで本研究では,複数の医用画像セグメンテーションタスクにおいて,最先端モデルを上回りながら,2,626,337個のパラメータしか必要としない,プルトネットと呼ばれる新しいセグメンテーションモデルを提案する。 我々は efficientnetb0 アーキテクチャをバックボーンとして使用し,部分デコーダとフルスケール接続を組み合わせた改良型部分デコーダを提案する。 様々なポリプサイズを扱うために非対称畳み込みを用いる。 最後に,各特徴マップを重み付けし,圧縮励磁ブロックを用いてセグメンテーションを改善する。 大腸内視鏡検査におけるポリープセグメンテーションに加えて, 手術器具と核のセグメンテーションに関する実験を行い, 医用画像セグメンテーションタスクの一般化を実証した。 我々のモデルは、CVC-ClinicDBデータセットのDiceスコアが92.3、EndoSceneデータセットの%89.3、2018 Data Science Bowl ChallengeデータセットのDiceスコアが91.93、Kvasir-InstrumentデータセットのDiceスコアが94.8、最先端モデルよりも優れていた。 実験およびアブレーション研究により,本モデルは精度に優れており,複数の医学的セグメンテーションタスクによく応用できることが示された。

Polyps in the colon can turn into cancerous cells if not removed with early intervention. Deep learning models are used to minimize the number of polyps that goes unnoticed by the experts, and to accurately segment the detected polyps during these interventions. Although these models perform well on these tasks, they require too many parameters, which can pose a problem with real-time applications. To address this problem, we propose a novel segmentation model called PlutoNet which requires only 2,626,337 parameters while outperforming state-of-the-art models on multiple medical image segmentation tasks. We use EfficientNetB0 architecture as a backbone and propose the novel modified partial decoder, which is a combination of partial decoder and full scale connections, which further reduces the number of parameters required, as well as captures semantic details. We use asymmetric convolutions to handle varying polyp sizes. Finally, we weight each feature map to improve segmentation by using a squeeze and excitation block. In addition to polyp segmentation in colonoscopy, we tested our model on segmentation of nuclei and surgical instruments to demonstrate its generalizability to different medical image segmentation tasks. Our model outperformed the state-of-the-art models with a Dice score of %92.3 in CVC-ClinicDB dataset and %89.3 in EndoScene dataset, a Dice score of %91.93 on the 2018 Data Science Bowl Challenge dataset, and a Dice score of %94.8 on Kvasir-Instrument dataset. Our experiments and ablation studies show that our model is superior in terms of accuracy, and it is able generalize well to multiple medical segmentation tasks.
翻訳日:2022-04-12 00:40:51 公開日:2022-04-06
# 病理組織像におけるmitosis domain generalization -- the midog challenge

Mitosis domain generalization in histopathology images -- The MIDOG challenge ( http://arxiv.org/abs/2204.03742v1 )

ライセンス: Link先を確認
Marc Aubreville, Nikolas Stathonikos, Christof A. Bertram, Robert Klopleisch, Natalie ter Hoeve, Francesco Ciompi, Frauke Wilm, Christian Marzahl, Taryn A. Donovan, Andreas Maier, Jack Breen, Nishant Ravikumar, Youjin Chung, Jinah Park, Ramin Nateghi, Fattaneh Pourakpour, Rutger H.J. Fick, Saima Ben Hadj, Mostafa Jahanifar, Nasir Rajpoot, Jakob Dexl, Thomas Wittenberg, Satoshi Kondo, Maxime W. Lafarge, Viktor H. Koelzer, Jingtang Liang, Yubo Wang, Xi Long, Jingxin Liu, Salar Razavi, April Khademi, Sen Yang, Xiyue Wang, Mitko Veta, Katharina Breininger(参考訳) 腫瘍組織中の有糸分裂像の密度は腫瘍増殖と高い相関があることが知られており,腫瘍グレーディングにおいて重要なマーカーである。 病理学者による有糸分裂像の認識は、強いラター間バイアスの対象となることが知られている。 最先端のディープラーニング手法は、この評価のエキスパートを支援することができるが、トレーニングに使われたものとは異なる臨床環境に適用した場合、非常に劣化することが知られている。 基礎となるドメインシフトにおける決定的な要素の1つは、スライドスキャナー全体の違いによって引き起こされるばらつきとして特定されている。 MICCAI MIDOG 2021チャレンジの目的は、このドメインシフトに対応する方法を提案し、評価することであり、スキャナ非依存のミトーシス検出アルゴリズムを導出することであった。 課題は4つのスキャンシステムに分割された200のケースのトレーニングセットを使用した。 テストセットとして、2つの未確認スキャナを含む4つのスキャンシステムにさらに100のケースが分割された。 最善のアプローチはエキスパートレベルで行われ、勝つアルゴリズムは0.748(ci95: 0.704-0.781)のf_1スコアを与える。 本稿では,課題に対するアプローチの評価と比較を行い,パフォーマンス向上に寄与する方法論的要因を同定する。

The density of mitotic figures within tumor tissue is known to be highly correlated with tumor proliferation and thus is an important marker in tumor grading. Recognition of mitotic figures by pathologists is known to be subject to a strong inter-rater bias, which limits the prognostic value. State-of-the-art deep learning methods can support the expert in this assessment but are known to strongly deteriorate when applied in a different clinical environment than was used for training. One decisive component in the underlying domain shift has been identified as the variability caused by using different whole slide scanners. The goal of the MICCAI MIDOG 2021 challenge has been to propose and evaluate methods that counter this domain shift and derive scanner-agnostic mitosis detection algorithms. The challenge used a training set of 200 cases, split across four scanning systems. As a test set, an additional 100 cases split across four scanning systems, including two previously unseen scanners, were given. The best approaches performed on an expert level, with the winning algorithm yielding an F_1 score of 0.748 (CI95: 0.704-0.781). In this paper, we evaluate and compare the approaches that were submitted to the challenge and identify methodological factors contributing to better performance.
翻訳日:2022-04-11 14:07:01 公開日:2022-04-06
# gpsaf:制約付き単目的および多目的最適化のための一般化確率的サロゲート支援フレームワーク

GPSAF: A Generalized Probabilistic Surrogate-Assisted Framework for Constrained Single- and Multi-objective Optimization ( http://arxiv.org/abs/2204.04054v1 )

ライセンス: Link先を確認
Julian Blank and Kalyanmoy Deb(参考訳) 過去20年間に計算コストのかかる最適化問題を解くために重要な努力がなされており、サロゲートを最適化に取り入れた様々な最適化手法が提案されている。 多くの研究は、ユーティリティ最適化問題を定義することによってサーロゲートを利用するか、1つまたは複数の近似モデルを使うように既存の最適化方法をカスタマイズするかに焦点を当てている。 しかし、異なるタイプのアルゴリズムや最適化問題に同時に適用できる汎用概念にはほとんど注意が払われていない。 そこで本稿では,制約のない単一目的および多目的最適化アルゴリズムの幅広いカテゴリに適用可能な一般化確率的サロゲート支援フレームワーク(gpsaf)を提案する。 このアイデアは、既存の最適化方法を支援するサーロゲートに基づいている。 この援助は2つの異なる段階に基づいており、1つは探検を促進させ、もう1つはサロゲートを悪用する。 様々なソリューションクラスタ間で確率的ノックアウトトーナメントを実行することで、サロゲートの探索と利用が自動的に均衡する。 最大解評価予算が300以下である単目的および多目的最適化問題に対して,提案手法を適用せずに,複数のよく知られた集団ベース最適化アルゴリズムについて検討した。 結果は,GPSAFを最適化アルゴリズムに適用することの有効性と,他のサロゲート支援アルゴリズムとの競合性を示す。

Significant effort has been made to solve computationally expensive optimization problems in the past two decades, and various optimization methods incorporating surrogates into optimization have been proposed. Most research focuses on either exploiting the surrogate by defining a utility optimization problem or customizing an existing optimization method to use one or multiple approximation models. However, only a little attention has been paid to generic concepts applicable to different types of algorithms and optimization problems simultaneously. Thus this paper proposes a generalized probabilistic surrogate-assisted framework (GPSAF), applicable to a broad category of unconstrained and constrained, single- and multi-objective optimization algorithms. The idea is based on a surrogate assisting an existing optimization method. The assistance is based on two distinct phases, one facilitating exploration and another exploiting the surrogates. The exploration and exploitation of surrogates are automatically balanced by performing a probabilistic knockout tournament among different clusters of solutions. A study of multiple well-known population-based optimization algorithms is conducted with and without the proposed surrogate assistance on single- and multi-objective optimization problems with a maximum solution evaluation budget of 300 or less. The results indicate the effectiveness of applying GPSAF to an optimization algorithm and the competitiveness with other surrogate-assisted algorithms.
翻訳日:2022-04-11 14:02:25 公開日:2022-04-06
# ドライバーの注意検出 : 系統的な文献レビュー

Drivers' attention detection: a systematic literature review ( http://arxiv.org/abs/2204.03741v1 )

ライセンス: Link先を確認
Luiz G. V\'eras, Anna K. F. Gomes, Guilherme A. R. Dominguez and Alexandre T. Oliveira(参考訳) 無数の交通事故がしばしばドライバーの不注意のために起こる。 多くの要因が運転中の注意散らしに寄与しうるが、それは物体や事象が生理的状態、つまり眠気や疲労に結びつくためであり、運転者が注意をそらすことができないからである。 技術進歩により、現実の状況における注意を検知する多くのソリューションの開発と応用が可能となり、過去数年間の科学界の関心を喚起した。 一般的に、これらのソリューションは注意の欠如を認識し、注意を回復し、深刻な事故を避け、命を守るためにドライバーに警告する。 本研究は,車いすの運転者の注意を検知するために使用される手法と基準を,画像に基づくシステム文献レビュー(SLR)で提示する。 その結果、ドライバーの注意検出に関する文献から50の論文が選択され、22の解が所望の文脈に含まれた。 SLRの結果は、ドライバーの注意検出のための新しい研究プロジェクトの準備のリソースとして利用することができる。

Countless traffic accidents often occur because of the inattention of the drivers. Many factors can contribute to distractions while driving, since objects or events to physiological conditions, as drowsiness and fatigue, do not allow the driver to stay attentive. The technological progress allowed the development and application of many solutions to detect the attention in real situations, promoting the interest of the scientific community in these last years. Commonly, these solutions identify the lack of attention and alert the driver, in order to help her/him to recover the attention, avoiding serious accidents and preserving lives. Our work presents a Systematic Literature Review (SLR) of the methods and criteria used to detect attention of drivers at the wheel, focusing on those methods based on images. As results, 50 studies were selected from the literature on drivers' attention detection, in which 22 contain solutions in the desired context. The results of SLR can be used as a resource in the preparation of new research projects in drivers' attention detection.
翻訳日:2022-04-11 13:13:08 公開日:2022-04-06
# (参考訳) ディープニューラルネットワークを用いたRF信号変換と分類 [全文訳有]

RF Signal Transformation and Classification using Deep Neural Networks ( http://arxiv.org/abs/2204.03564v1 )

ライセンス: CC BY 4.0
Umar Khalid, Nazmul Karim, Nazanin Rahnavard(参考訳) コンピュータビジョンや自然言語処理タスクのために設計されたディープニューラルネットワーク(DNN)は、RFデータセットに直接適用することはできない。 この課題に対処するため、我々は畳み込み変換技術を導入し、既成のDNNに適したデータ型に変換することを提案する。 さらに,簡単な5層畳み込みニューラルネットワークアーキテクチャ (CONV-5) を提案する。 さらに,将来のRF研究を促進するため,RF1024と呼ばれるRFデータセットを作成した。 RF1024は8つの異なるRF変調クラスから構成され、各クラスは1000/200のトレーニング/テストサンプルを持つ。 RF1024データセットの各サンプルは、1024の複雑なI/Q値を含む。 最後に、RadioML2016とRF1024データセットで実験を行い、改良された分類性能を示す。

Deep neural networks (DNNs) designed for computer vision and natural language processing tasks cannot be directly applied to the radio frequency (RF) datasets. To address this challenge, we propose to convert the raw RF data to data types that are suitable for off-the-shelf DNNs by introducing a convolutional transform technique. In addition, we propose a simple 5-layer convolutional neural network architecture (CONV-5) that can operate with raw RF I/Q data without any transformation. Further, we put forward an RF dataset, referred to as RF1024, to facilitate future RF research. RF1024 consists of 8 different RF modulation classes with each class having 1000/200 training/test samples. Each sample of the RF1024 dataset contains 1024 complex I/Q values. Lastly, the experiments are performed on the RadioML2016 and RF1024 datasets to demonstrate the improved classification performance.
翻訳日:2022-04-09 09:19:24 公開日:2022-04-06
# (参考訳) 深部視覚モデルを用いた感情音声認識 [全文訳有]

Emotional Speech Recognition with Pre-trained Deep Visual Models ( http://arxiv.org/abs/2204.03561v1 )

ライセンス: CC0 1.0
Waleed Ragheb, Mehdi Mirzapour, Ali Delfardi, H\'el\`ene Jacquenet, Lawrence Carbon(参考訳) 本稿では,視覚深層ニューラルネットワークモデルを用いた感情音声認識のための新しい手法を提案する。 我々は,事前学習したコンピュータビジョン深層モデルの伝達学習能力を用いて,音声タスクにおける感情認識の義務付けを行う。 これを実現するために,音響特徴の複合セットと,それらを画像に変換する手順を提案する。 さらに,これらのモデルに対して,音響画像と正規画像の異なる特徴を考慮したトレーニングパラダイムを提案する。 実験では,事前学習したVGG-16モデルを用いて,話者非依存感情認識のためのBerlin EMO-DBデータセットの全体的な方法論を検証した。 提案モデルを7つの感情の完全なリスト上で評価し,その結果を新たな最先端に設定した。

In this paper, we propose a new methodology for emotional speech recognition using visual deep neural network models. We employ the transfer learning capabilities of the pre-trained computer vision deep models to have a mandate for the emotion recognition in speech task. In order to achieve that, we propose to use a composite set of acoustic features and a procedure to convert them into images. Besides, we present a training paradigm for these models taking into consideration the different characteristics between acoustic-based images and regular ones. In our experiments, we use the pre-trained VGG-16 model and test the overall methodology on the Berlin EMO-DB dataset for speaker-independent emotion recognition. We evaluate the proposed model on the full list of the seven emotions and the results set a new state-of-the-art.
翻訳日:2022-04-09 09:10:53 公開日:2022-04-06
# (参考訳) efficientcellseg:con text aware pseudocoloringを用いた効率的な体積細胞分割 [全文訳有]

EfficientCellSeg: Efficient Volumetric Cell Segmentation Using Context Aware Pseudocoloring ( http://arxiv.org/abs/2204.03014v1 )

ライセンス: CC BY 4.0
Royden Wagner, Karl Rohr(参考訳) 蛍光顕微鏡画像における体積細胞分画は,様々な細胞プロセスを研究する上で重要である。 用途は、がん細胞の分析から胚期における細胞の行動研究まで様々である。 他のコンピュータビジョン分野と同様に、最近の手法では大きな畳み込みニューラルネットワーク(CNN)または視覚トランスフォーマーモデル(ViT)を使用する。 利用可能な3D顕微鏡画像の数は一般的にアプリケーションで限られているため、異なるアプローチを採用し、ボリュームセルセグメンテーションのための小さなCNNを導入する。 従来のセルセグメンテーションのcnnモデルと比較して、このモデルは効率的であり、非対称エンコーダ-デコーダ構造を持ち、デコーダのパラメータは極めて少ない。 訓練効率は転校学習によりさらに向上する。 また、3次元画像のz方向における空間的文脈をスライスで活用するためにコンテキスト認識擬似カラー化を導入する。 細胞追跡チャレンジのセルセグメンテーションベンチマークから, 異なる3次元データセットを用いて評価を行った。 セグメンテーション法は最上位の結果を得るが、cnnモデルは最上位のメソッドに比べて最大25倍のパラメータを持つ。 コードと事前訓練されたモデルは以下の通りである。

Volumetric cell segmentation in fluorescence microscopy images is important to study a wide variety of cellular processes. Applications range from the analysis of cancer cells to behavioral studies of cells in the embryonic stage. Like in other computer vision fields, most recent methods use either large convolutional neural networks (CNNs) or vision transformer models (ViTs). Since the number of available 3D microscopy images is typically limited in applications, we take a different approach and introduce a small CNN for volumetric cell segmentation. Compared to previous CNN models for cell segmentation, our model is efficient and has an asymmetric encoder-decoder structure with very few parameters in the decoder. Training efficiency is further improved via transfer learning. In addition, we introduce Context Aware Pseudocoloring to exploit spatial context in z-direction of 3D images while performing volumetric cell segmentation slice-wise. We evaluated our method using different 3D datasets from the Cell Segmentation Benchmark of the Cell Tracking Challenge. Our segmentation method achieves top-ranking results, while our CNN model has an up to 25x lower number of parameters than other top-ranking methods. Code and pretrained models are available at: https://github.com/r oydenwa/efficient-ce ll-seg
翻訳日:2022-04-09 09:01:34 公開日:2022-04-06
# (参考訳) 道徳的統合コーパス:倫理的対話システムのためのベンチマーク [全文訳有]

The Moral Integrity Corpus: A Benchmark for Ethical Dialogue Systems ( http://arxiv.org/abs/2204.03021v1 )

ライセンス: CC BY 4.0
Caleb Ziems, Jane A. Yu, Yi-Chia Wang, Alon Halevy, Diyi Yang(参考訳) 会話エージェントは、オープンドメインの対話設定において人間の能力にますます近づいたが、そのようなモデルは、システムの道徳的完全性に対するユーザの信頼を損なう無感、傷つき、あるいは完全に一貫性のない視点を反映している。 道徳的判断は普遍的ではないため、道徳的偏見を緩和することは困難であり、同時に状況に適用する複数の競合する判断があるかもしれない。 本研究では,対話システムの発話に反映される直観,価値観,道徳的判断の体系的理解を促進するために,倫理的曖昧さを権威的に解決する新しい資源を提案する。 モラル積分コーパス(英語版)(MIC)はそのような資源であり、99kの異なるThumbのルール(RoTs)を用いて38kの即応応答ペアの道徳的仮定を捉えている。 各RoTは特定の道徳的信念を反映しており、なぜチャットボットの応答が受け入れられるか、または問題となるのかを説明することができる。 さらに9つの道徳的属性と社会的属性のセットと属性分類のためのベンチマーク性能でRoTを整理する。 最も重要なことは、現在のニューラルネットワークモデルが、以前は目に見えないインタラクションを合理的に記述する新しいRoTを自動生成できることを示しています。 この結果から,MICは言語モデルの暗黙的な道徳的仮定を理解し,会話エージェントの整合性を柔軟にベンチマークする上で有用な資源であることが示唆された。 データのダウンロードはhttps://github.com/g t-salt/micを参照。

Conversational agents have come increasingly closer to human competence in open-domain dialogue settings; however, such models can reflect insensitive, hurtful, or entirely incoherent viewpoints that erode a user's trust in the moral integrity of the system. Moral deviations are difficult to mitigate because moral judgments are not universal, and there may be multiple competing judgments that apply to a situation simultaneously. In this work, we introduce a new resource, not to authoritatively resolve moral ambiguities, but instead to facilitate systematic understanding of the intuitions, values and moral judgments reflected in the utterances of dialogue systems. The Moral Integrity Corpus, MIC, is such a resource, which captures the moral assumptions of 38k prompt-reply pairs, using 99k distinct Rules of Thumb (RoTs). Each RoT reflects a particular moral conviction that can explain why a chatbot's reply may appear acceptable or problematic. We further organize RoTs with a set of 9 moral and social attributes and benchmark performance for attribute classification. Most importantly, we show that current neural language models can automatically generate new RoTs that reasonably describe previously unseen interactions, but they still struggle with certain scenarios. Our findings suggest that MIC will be a useful resource for understanding and language models' implicit moral assumptions and flexibly benchmarking the integrity of conversational agents. To download the data, see https://github.com/G T-SALT/mic
翻訳日:2022-04-09 08:52:07 公開日:2022-04-06
# (参考訳) 対話型フィードバックによる質問応答システムのデプロイ後の精度と説明可能性の向上 [全文訳有]

Using Interactive Feedback to Improve the Accuracy and Explainability of Question Answering Systems Post-Deployment ( http://arxiv.org/abs/2204.03025v1 )

ライセンス: CC BY 4.0
Zichao Li, Prakhar Sharma, Xing Han Lu, Jackie C.K. Cheung, Siva Reddy(参考訳) 質問応答に関するほとんどの研究は、デプロイ前の段階、すなわちデプロイメントのための正確なモデルの構築に焦点を当てている。 本稿では,ユーザインタラクションに基づいて,QAシステムのさらなる展開が可能であるか,という疑問を提起する。 2つの改善に焦点を合わせます 1)QAシステムの性能自体の改善、及び 2) モデルに回答の正確性や不正確性を説明する能力を与える。 ユーザからの対話的なフィードバックを含む検索ベースのQAデータセットであるFeedbackQAを収集する。 このデータセットは,システムに関わるクラウドワーカーにベースQAシステムをデプロイして収集し,回答の品質に関するフィードバックを提供する。 フィードバックには構造化された評価と構造化されていない自然言語の説明の両方が含まれている。 このフィードバックデータを用いてニューラルネットワークをトレーニングし,説明と回答候補の再スコアを生成する。 フィードバックデータは、デプロイされたQAシステムの精度を向上するだけでなく、他のより強力な非デプロイシステムも改善することを示す。 生成された説明は、回答の正確性に関する情報的な判断にも役立ちます。 プロジェクトページ: https://mcgill-nlp.g ithub.io/feedbackqa/

Most research on question answering focuses on the pre-deployment stage; i.e., building an accurate model for deployment. In this paper, we ask the question: Can we improve QA systems further \emph{post-}deployment based on user interactions? We focus on two kinds of improvements: 1) improving the QA system's performance itself, and 2) providing the model with the ability to explain the correctness or incorrectness of an answer. We collect a retrieval-based QA dataset, FeedbackQA, which contains interactive feedback from users. We collect this dataset by deploying a base QA system to crowdworkers who then engage with the system and provide feedback on the quality of its answers. The feedback contains both structured ratings and unstructured natural language explanations. We train a neural model with this feedback data that can generate explanations and re-score answer candidates. We show that feedback data not only improves the accuracy of the deployed QA system but also other stronger non-deployed systems. The generated explanations also help users make informed decisions about the correctness of answers. Project page: https://mcgill-nlp.g ithub.io/feedbackqa/
翻訳日:2022-04-09 08:22:31 公開日:2022-04-06
# (参考訳) 変分オートエンコーダの統計的モデル批判

Statistical Model Criticism of Variational Auto-Encoders ( http://arxiv.org/abs/2204.03030v1 )

ライセンス: CC BY 4.0
Claartje Barkhof and Wilker Aziz(参考訳) 本稿では,変分オートエンコーダ(vaes)の統計的評価のためのフレームワークを提案し,手書き文字と英語テキストのコーパスのモデリングの文脈において,このフレームワークの2つのインスタンスをテストする。 評価の考え方は,ベイズデータ解析で一般的である統計モデル批判の考え方に基づいており,サンプルを得ることのできる未知のデータ生成プロセスの統計を再現する能力という観点から,統計モデルを評価する。 vaeは共有サンプル空間上の1つではなく2つの共同分布を学習し、それぞれが2つの方向(データからデータへ)の1つでサンプリングできる因子化の選択を利用する。 また,これらの分布から得られたサンプルを,観測データと先行選択に適合して評価し,データサンプルから始まる2つの分布を接続するパイプラインを通じてサンプルを評価し,これらを併用して,実践者にとって有用な潜伏要因を明らかにする。 本手法は,本手法が本質的な評価指標を超えて定性的にモデル選択を行う可能性を示し,一般的な統計値よりも詳細な粒度を示す。

We propose a framework for the statistical evaluation of variational auto-encoders (VAEs) and test two instances of this framework in the context of modelling images of handwritten digits and a corpus of English text. Our take on evaluation is based on the idea of statistical model criticism, popular in Bayesian data analysis, whereby a statistical model is evaluated in terms of its ability to reproduce statistics of an unknown data generating process from which we can obtain samples. A VAE learns not one, but two joint distributions over a shared sample space, each exploiting a choice of factorisation that makes sampling tractable in one of two directions (latent-to-data, data-to-latent). We evaluate samples from these distributions, assessing their (marginal) fit to the observed data and our choice of prior, and we also evaluate samples through a pipeline that connects the two distributions starting from a data sample, assessing whether together they exploit and reveal latent factors of variation that are useful to a practitioner. We show that this methodology offers possibilities for model selection qualitatively beyond intrinsic evaluation metrics and at a finer granularity than commonly used statistics can offer.
翻訳日:2022-04-09 08:08:45 公開日:2022-04-06
# (参考訳) VALUE:NLUにおける方言の相違を理解する [全文訳有]

VALUE: Understanding Dialect Disparity in NLU ( http://arxiv.org/abs/2204.03031v1 )

ライセンス: CC BY 4.0
Caleb Ziems, Jiaao Chen, Camille Harris, Jessica Anderson, Diyi Yang(参考訳) 英語の自然言語理解(NLU)システムは、GLUEやSuperGLUEのようなベンチマークで優れた性能を発揮し、人間よりも優れています。 しかし、これらのベンチマークは標準アメリカ英語(SAE)の教科書のみを含んでいる。 他の方言は主にNLPコミュニティで見過ごされている。 これは、話者のサブポピュレーションのみに作用するバイアス付きで不平等なNLUシステムをもたらす。 現在のモデルの相違を理解し、より方言に適合したNLUシステムを容易にするために、語彙と形態素の変換規則を用いて作成したGLUEの挑戦的な変種であるVernAcular Language Understanding Evaluation (VALUE)ベンチマークを導入する。 この最初のリリース (v.1) では、アフリカ系アメリカ人のバーナキュラー英語 (aave) の11の特徴に関する規則を構築し、言語受容性判断による各特徴変換を参加型設計方法で検証するために流行ったaave話者を募集した。 実験により、これらの新しい方言の特徴がモデル性能の低下につながることが示された。

English Natural Language Understanding (NLU) systems have achieved great performances and even outperformed humans on benchmarks like GLUE and SuperGLUE. However, these benchmarks contain only textbook Standard American English (SAE). Other dialects have been largely overlooked in the NLP community. This leads to biased and inequitable NLU systems that serve only a sub-population of speakers. To understand disparities in current models and to facilitate more dialect-competent NLU systems, we introduce the VernAcular Language Understanding Evaluation (VALUE) benchmark, a challenging variant of GLUE that we created with a set of lexical and morphosyntactic transformation rules. In this initial release (V.1), we construct rules for 11 features of African American Vernacular English (AAVE), and we recruit fluent AAVE speakers to validate each feature transformation via linguistic acceptability judgments in a participatory design manner. Experiments show that these new dialectal features can lead to a drop in model performance.
翻訳日:2022-04-09 08:07:36 公開日:2022-04-06
# (参考訳) byt5による多言語grapheme-to-phoneme変換モデル [全文訳有]

ByT5 model for massively multilingual grapheme-to-phoneme conversion ( http://arxiv.org/abs/2204.03067v1 )

ライセンス: CC BY 4.0
Jian Zhu, Cong Zhang, David Jurgens(参考訳) 本研究では,ByT5に基づくG2Pモデルの実装により,多言語グラフの音素変換を実現する。 我々は,約100言語をカバーするさまざまなソースからG2Pデータセットを収集し,ByT5に基づく大規模多言語G2Pモデルを訓練した。 バイトレベルの入力で動作する ByT5 は,多言語G2P でトークンベースの mT5 モデルよりも有意に優れていた。 これらの言語における単言語モデルとのペアワイズ比較は、多言語 ByT5 モデルが様々な言語から共同学習することで、一般的に電話誤り率を低下させることを示唆している。 事前訓練されたモデルは、目に見えない言語のゼロショット予測や、微調整のための事前訓練された重み付けによって、低リソースのG2Pをさらに恩恵を与えることができる。 多言語G2Pの今後の研究を促進するため、コードと事前訓練された多言語G2Pモデルをhttps://github.com/l ingjzhu/CharsiuG2Pで公開する。

In this study, we tackle massively multilingual grapheme-to-phoneme conversion through implementing G2P models based on ByT5. We have curated a G2P dataset from various sources that covers around 100 languages and trained large-scale multilingual G2P models based on ByT5. We found that ByT5 operating on byte-level inputs significantly outperformed the token-based mT5 model in terms of multilingual G2P. Pairwise comparison with monolingual models in these languages suggests that multilingual ByT5 models generally lower the phone error rate by jointly learning from a variety of languages. The pretrained model can further benefit low resource G2P through zero-shot prediction on unseen languages or provides pretrained weights for finetuning, which helps the model converge to a lower phone error rate than randomly initialized weights. To facilitate future research on multilingual G2P, we make available our code and pretrained multilingual G2P models at: https://github.com/l ingjzhu/CharsiuG2P.
翻訳日:2022-04-09 07:39:51 公開日:2022-04-06
# (参考訳) 巡回セグメンテーションganによるラベルなしモダリティのインスタンスセグメンテーション [全文訳有]

Instance Segmentation of Unlabeled Modalities via Cyclic Segmentation GAN ( http://arxiv.org/abs/2204.03082v1 )

ライセンス: CC BY 4.0
Leander Lauenburg, Zudi Lin, Ruihan Zhang, M\'arcia dos Santos, Siyu Huang, Ignacio Arganda-Carreras, Edward S. Boyden, Hanspeter Pfister, Donglai Wei(参考訳) ラベルのない画像モダリティのためのインスタンスセグメンテーションは難しいが、エキスパートアノテーションの収集は高価で時間がかかる。 既存の作業は、さまざまなトレーニングデータに最適化されたトレーニング済みモデルをデプロイするか、ドメイン翻訳とイメージセグメンテーションを2つの独立したステップとして実施することで、新しいモダリティをセグメント化する。 本稿では,統合されたフレームワークを用いて画像翻訳とインスタンス分割を共同で行う,CySGAN(Cysic Segmentation Generative Adversarial Network)を提案する。 画像翻訳のサイクルガン損失と注釈付きソースドメインの教師付き損失の他に、ラベルなしのターゲットドメインイメージを活用することで、モデル性能を改善するために、自己教師付きおよびセグメントベースの敵対的目標も導入する。 我々は,アノテーテッド・電子顕微鏡 (em) 画像とラベルなし拡大顕微鏡 (exm) データを用いた3次元ニューロン核セグメンテーションの課題について検討を行った。 我々のCySGANは、事前訓練されたジェネラリストモデルと、画像翻訳とセグメンテーションを順次実施するベースラインの両方より優れています。 NucExMという名前の新たに収集されたExM核データセットはhttps://connectomics -bazaar.github.io/pr oj/CySGAN/index.html で公開されている。

Instance segmentation for unlabeled imaging modalities is a challenging but essential task as collecting expert annotation can be expensive and time-consuming. Existing works segment a new modality by either deploying a pre-trained model optimized on diverse training data or conducting domain translation and image segmentation as two independent steps. In this work, we propose a novel Cyclic Segmentation Generative Adversarial Network (CySGAN) that conducts image translation and instance segmentation jointly using a unified framework. Besides the CycleGAN losses for image translation and supervised losses for the annotated source domain, we introduce additional self-supervised and segmentation-based adversarial objectives to improve the model performance by leveraging unlabeled target domain images. We benchmark our approach on the task of 3D neuronal nuclei segmentation with annotated electron microscopy (EM) images and unlabeled expansion microscopy (ExM) data. Our CySGAN outperforms both pretrained generalist models and the baselines that sequentially conduct image translation and segmentation. Our implementation and the newly collected, densely annotated ExM nuclei dataset, named NucExM, are available at https://connectomics -bazaar.github.io/pr oj/CySGAN/index.html .
翻訳日:2022-04-09 07:26:48 公開日:2022-04-06
# (参考訳) データ正義研究と実践の促進:総合的な文献レビュー

Advancing Data Justice Research and Practice: An Integrated Literature Review ( http://arxiv.org/abs/2204.03090v1 )

ライセンス: CC BY 4.0
David Leslie, Michael Katell, Mhairi Aitken, Jatinder Singh, Morgan Briggs, Rosamund Powell, Cami Rinc\'on, Thompson Chengeta, Abeba Birhane, Antonella Perini, Smera Jayadeva, and Anjali Mazumder(参考訳) データ・ジャスティス・リサーチ・プラクティス(adjrp)プロジェクトは、データ・ジャスティスに関する現在の考え方のレンズを広げ、政策立案者、実践者、影響のあるコミュニティが公平で自由で維持されるデータ収集、ガバナンス、利用がますますダイナミックでグローバルなデータ革新のエコシステムにどのように見えるべきかを、より深く理解することを目的としている。 この総合的な文献レビューでは、この願望を支えるために必要な概念的基盤を築きたい。 この導入は、以下の文献レビューによって実施されるデータ正義の拡大を動機付けている。 まず、データ正義の研究の一定の限界が、データ正義の研究と実践の再配置の必要性をいかに引き起こすかに対処する。 現代の芸術の強みと欠点を図示し、デコロニアルな文脈でデータ正義の視点を広げようとする我々の努力が直面する課題について詳しく説明する。 文学評論の本体には7つの主題がある。 それぞれのテーマについて、ADJRPチームはキーテキストを体系的に収集し分析し、既存の社会構造とパワーダイナミクスがデータ正義と関連する司法分野にどのように課題をもたらすかという批判的な経験を語る。 いずれの場合も、この批判的な経験的ストーリーは、活動家、政策立案者、学者が、データ革新エコシステムと技術実践の隣接する領域において、不平等の長期的構造に挑戦する、というトランスフォーメーションストーリーによって補完される。

The Advancing Data Justice Research and Practice (ADJRP) project aims to widen the lens of current thinking around data justice and to provide actionable resources that will help policymakers, practitioners, and impacted communities gain a broader understanding of what equitable, freedom-promoting, and rights-sustaining data collection, governance, and use should look like in increasingly dynamic and global data innovation ecosystems. In this integrated literature review we hope to lay the conceptual groundwork needed to support this aspiration. The introduction motivates the broadening of data justice that is undertaken by the literature review which follows. First, we address how certain limitations of the current study of data justice drive the need for a re-location of data justice research and practice. We map out the strengths and shortcomings of the contemporary state of the art and then elaborate on the challenges faced by our own effort to broaden the data justice perspective in the decolonial context. The body of the literature review covers seven thematic areas. For each theme, the ADJRP team has systematically collected and analysed key texts in order to tell the critical empirical story of how existing social structures and power dynamics present challenges to data justice and related justice fields. In each case, this critical empirical story is also supplemented by the transformational story of how activists, policymakers, and academics are challenging longstanding structures of inequity to advance social justice in data innovation ecosystems and adjacent areas of technological practice.
翻訳日:2022-04-09 07:14:46 公開日:2022-04-06
# (参考訳) Data Justice Stories: ケーススタディのリポジトリ

Data Justice Stories: A Repository of Case Studies ( http://arxiv.org/abs/2204.03100v1 )

ライセンス: CC BY 4.0
David Leslie, Morgan Briggs, Antonella Perini, Smera Jayadeva, Cami Rinc\'on, Noopur Raval, Abeba Birhane, Rosamund Powell, Michael Katell, and Mhairi Aitken(参考訳) データ・ジャスティス」という考え方は、近年の学術用語である。 It has arisen over the past decade in Anglo-European research institutions as an attempt to bring together a critique of the power dynamics that underlie accelerating trends of datafication with a normative commitment to the principles of social justice-a commitment to the achievement of a society that is equitable, fair, and capable of confronting the root causes of injustice.However, despite the seeming novelty of such a data justice pedigree, this joining up of the critique of the power imbalances that have shaped the digital and "big data" revolutions with a commitment to social equity and constructive societal transformation has a deeper historical, and more geographically diverse, provenance. データ・ジャスティス・イニシアティブ(英語版)、活動主義(英語版)、そしてこの巻に含まれる擁護の物語として、世界中のデータ・ジャスティスの実践は、事実、現代の学術談話におけるデータ・ジャスティス(英語版)の概念の解明と結晶化に先行している。 第一に、我々は読者に、微妙で明示的な力、支配、強制という形で表されるデータ正義の歪みと奇形を識別するために必要な重要なレバレッジを提供することを目的としています。 第二に、我々は、データ正義活動家や擁護者によって取りまとめられた歴史的に有効な規範と倫理的洞察へのアクセスを、社会的変革のツールとして、読者に提供し、これらの規範と洞察の形式が、将来的なデータ正義の実践を刺激する建設的資源として描かれるようにすることを目指している。

The idea of "data justice" is of recent academic vintage. It has arisen over the past decade in Anglo-European research institutions as an attempt to bring together a critique of the power dynamics that underlie accelerating trends of datafication with a normative commitment to the principles of social justice-a commitment to the achievement of a society that is equitable, fair, and capable of confronting the root causes of injustice.However, despite the seeming novelty of such a data justice pedigree, this joining up of the critique of the power imbalances that have shaped the digital and "big data" revolutions with a commitment to social equity and constructive societal transformation has a deeper historical, and more geographically diverse, provenance. As the stories of the data justice initiatives, activism, and advocacy contained in this volume well evidence, practices of data justice across the globe have, in fact, largely preceded the elaboration and crystallisation of the idea of data justice in contemporary academic discourse. In telling these data justice stories, we hope to provide the reader with two interdependent tools of data justice thinking: First, we aim to provide the reader with the critical leverage needed to discern those distortions and malformations of data justice that manifest in subtle and explicit forms of power, domination, and coercion. Second, we aim to provide the reader with access to the historically effective forms of normativity and ethical insight that have been marshalled by data justice activists and advocates as tools of societal transformation-so that these forms of normativity and insight can be drawn on, in turn, as constructive resources to spur future transformative data justice practices.
翻訳日:2022-04-09 07:13:25 公開日:2022-04-06
# (参考訳) UIGR: 統一されたインタラクティブガーメント検索 [全文訳有]

UIGR: Unified Interactive Garment Retrieval ( http://arxiv.org/abs/2204.03111v1 )

ライセンス: CC BY 4.0
Xiao Han, Sen He, Li Zhang, Yi-Zhe Song, Tao Xiang(参考訳) 対話型衣料検索(IGR)は,参照衣料画像に基づいて対象の衣料画像を検索し,参照衣料に何を変更するかというユーザのフィードバックを得る。 テキスト誘導衣料検索(TGR)と視覚互換衣料検索(VCR)の2つのタスクが広く研究されている。 前者のユーザフィードバックは、衣料品カテゴリーを保存して変更すべき意味的属性を示し、後者について明示的に変更すべきのはカテゴリのみであり、スタイル保存には暗黙の要件がある。 これら2つのタスクの類似性と、両方に取り組む効率的なシステムの実現の必要性にもかかわらず、これらは統一され、共同でモデル化されることはなかった。 本稿では,TGRとVCRを統合するためのUIGR(Unified Interactive Garment Retrieval)フレームワークを提案する。 この目的のために、我々はまず両方の問題に合った大規模なベンチマークを提出する。 さらに,TGRとVCRを一つのモデルに統合する強力なベースラインアーキテクチャを提案する。 広範な実験により、1つのフレームワークで2つのタスクを統合することは、1つのモデルのみを必要とすることで効率が向上するだけでなく、パフォーマンスも向上することが示唆された。 コードとデータセットはhttps://github.com/B randonHanx/CompFashi on.comで入手できる。

Interactive garment retrieval (IGR) aims to retrieve a target garment image based on a reference garment image along with user feedback on what to change on the reference garment. Two IGR tasks have been studied extensively: text-guided garment retrieval (TGR) and visually compatible garment retrieval (VCR). The user feedback for the former indicates what semantic attributes to change with the garment category preserved, while the category is the only thing to be changed explicitly for the latter, with an implicit requirement on style preservation. Despite the similarity between these two tasks and the practical need for an efficient system tackling both, they have never been unified and modeled jointly. In this paper, we propose a Unified Interactive Garment Retrieval (UIGR) framework to unify TGR and VCR. To this end, we first contribute a large-scale benchmark suited for both problems. We further propose a strong baseline architecture to integrate TGR and VCR in one model. Extensive experiments suggest that unifying two tasks in one framework is not only more efficient by requiring a single model only, it also leads to better performance. Code and datasets are available at https://github.com/B randonHanx/CompFashi on.
翻訳日:2022-04-09 07:12:05 公開日:2022-04-06
# 視線追跡: Gaze を用いたコンピュータ支援診断の監督

Follow My Eye: Using Gaze to Supervise Computer-Aided Diagnosis ( http://arxiv.org/abs/2204.02976v1 )

ライセンス: Link先を確認
Sheng Wang, Xi Ouyang, Tianming Liu, Qian Wang, Dinggang Shen(参考訳) deep neural network(dnn)が初めて医療画像解析コミュニティに紹介されたとき、研究者はそのパフォーマンスに感銘を受けた。 しかし、現在、大量の手動ラベル付きデータが、適切に機能するDNNを訓練する必要があることは明らかである。 この監視データとラベルの要求は、経験豊富な専門家から大量の注釈を集めるのに時間と費用がかかるため、現在の医療画像分析において大きなボトルネックとなっている。 本稿では,医用画像を読む放射線科医の眼球運動が,DNNベースのコンピュータ支援診断システム(CAD)を訓練するための新たな指導形態であることを示す。 特に画像を読む際、放射線科医の視線の軌跡を記録する。 視線情報は処理され、アテンション一貫性モジュールを介してDNNの注意を監督するために使用される。 我々の知る限り、上記のパイプラインは、ディープラーニングベースのCADに専門家の眼球運動を活用するための最も初期の試みの1つである。 変形性関節症に対する膝x線画像の広範な実験を行った。 以上の結果から,視線監視により診断性能が大幅に向上する可能性が示唆された。

When deep neural network (DNN) was first introduced to the medical image analysis community, researchers were impressed by its performance. However, it is evident now that a large number of manually labeled data is often a must to train a properly functioning DNN. This demand for supervision data and labels is a major bottleneck in current medical image analysis, since collecting a large number of annotations from experienced experts can be time-consuming and expensive. In this paper, we demonstrate that the eye movement of radiologists reading medical images can be a new form of supervision to train the DNN-based computer-aided diagnosis (CAD) system. Particularly, we record the tracks of the radiologists' gaze when they are reading images. The gaze information is processed and then used to supervise the DNN's attention via an Attention Consistency module. To the best of our knowledge, the above pipeline is among the earliest efforts to leverage expert eye movement for deep-learning-based CAD. We have conducted extensive experiments on knee X-ray images for osteoarthritis assessment. The results show that our method can achieve considerable improvement in diagnosis performance, with the help of gaze supervision.
翻訳日:2022-04-08 16:08:55 公開日:2022-04-06
# マルチスケールメモリベースビデオの劣化

Multi-Scale Memory-Based Video Deblurring ( http://arxiv.org/abs/2204.02977v1 )

ライセンス: Link先を確認
Bo Ji and Angela Yao(参考訳) ディープニューラルネットワークの成功により、ビデオの劣化は目覚ましい進歩を遂げた。 ほとんどの方法は、ビデオシーケンスからの限られた情報伝搬で端から端までデブラリングする。 しかし、異なるフレーム領域は異なる特性を示し、対応する関連情報を提供する必要がある。 きめ細かいデブラリングを実現するために,メモリバンク内のぼやけた特徴対を記憶するメモリブランチを設計し,ぼやけたクエリ入力に有用な情報を提供する。 メモリバンクのメモリを充実させるために,メモリバンクに基づく双方向の並行性とマルチスケール戦略を設計した。 実験の結果,本モデルはモデルの複雑さと推論時間を低く保ちながら,他の最先端手法よりも優れていることがわかった。 コードはhttps://github.com/j ibo27/memdeblurで入手できる。

Video deblurring has achieved remarkable progress thanks to the success of deep neural networks. Most methods solve for the deblurring end-to-end with limited information propagation from the video sequence. However, different frame regions exhibit different characteristics and should be provided with corresponding relevant information. To achieve fine-grained deblurring, we designed a memory branch to memorize the blurry-sharp feature pairs in the memory bank, thus providing useful information for the blurry query input. To enrich the memory of our memory bank, we further designed a bidirectional recurrency and multi-scale strategy based on the memory bank. Experimental results demonstrate that our model outperforms other state-of-the-art methods while keeping the model complexity and inference time low. The code is available at https://github.com/j ibo27/MemDeblur.
翻訳日:2022-04-08 16:08:36 公開日:2022-04-06
# FFC-SE:音声強調のための高速フーリエ変換

FFC-SE: Fast Fourier Convolution for Speech Enhancement ( http://arxiv.org/abs/2204.03042v1 )

ライセンス: Link先を確認
Ivan Shchekotov, Pavel Andreev, Oleg Ivanov, Aibek Alanov, Dmitry Vetrov(参考訳) Fast Fourier Convolution(FFC)は、最近提案された神経オペレータで、いくつかのコンピュータビジョン問題で有望なパフォーマンスを示している。 FFCオペレータは、ニューラルネットワークの初期層内で大きな受容野操作を使用することができる。 音声処理に共通する周期的構造のインペインティングに特に有用であることが示されている。 本研究では,ffcを音声強調に適応するニューラルネットワークアーキテクチャを設計する。 我々は、大きな受容場がバニラ畳み込みモデルよりもコヒーレントな位相を生成できると仮定し、この仮説を実験的に検証する。 高速フーリエ畳み込みに基づくニューラルネットワークは、類似した畳み込みモデルよりも優れており、他の音声強調ベースラインと同等の結果を示すことが判明した。

Fast Fourier convolution (FFC) is the recently proposed neural operator showing promising performance in several computer vision problems. The FFC operator allows employing large receptive field operations within early layers of the neural network. It was shown to be especially helpful for inpainting of periodic structures which are common in audio processing. In this work, we design neural network architectures which adapt FFC for speech enhancement. We hypothesize that a large receptive field allows these networks to produce more coherent phases than vanilla convolutional models, and validate this hypothesis experimentally. We found that neural networks based on Fast Fourier convolution outperform analogous convolutional models and show better or comparable results with other speech enhancement baselines.
翻訳日:2022-04-08 16:05:41 公開日:2022-04-06
# NextG通信ネットワークにおける分散スペクトルセンシングのためのフェデレーション学習

Federated Learning for Distributed Spectrum Sensing in NextG Communication Networks ( http://arxiv.org/abs/2204.03027v1 )

ライセンス: Link先を確認
Yi Shi, Yalin E. Sagduyu, Tugba Erpek(参考訳) NextGネットワークは、既存のユーザとスペクトルを共有する柔軟性を提供し、異常検出、障害診断、ユーザ機器の識別、認証などの様々なスペクトル監視タスクをサポートする。 無線センサのネットワークは、大きな展開領域で関心のある信号伝送のスペクトルを監視するために必要である。 各センサーはその位置に応じて特定のチャネル条件下で信号を受信し、信号の分類に応じてディープニューラルネットワーク(DNN)の個別モデルを訓練する。 精度を向上させるために、個々のセンサは、センシングデータやセンサ結果と互いに、あるいは融合センタ(協調スペクトルセンシングなど)と交換することができる。 本稿では,マルチホップ無線ネットワーク上での分散フェデレーション学習を,信号識別のためのdnnを総合的に学習する。 分散フェデレーション学習では、各センサがトレーニングされたモデルを隣人にブロードキャストし、隣人からdnnモデルを収集し、次のトレーニングのために独自のモデルを初期化する。 スペクトルデータを交換することなく、このプロセスは時間とともに繰り返され、異なる場所で収集された信号に関連するプライバシーを保ちながら、ネットワーク全体に共通のdnnが構築される。 信号の分類精度と収束時間は、異なるネットワークトポロジー(ライン、スター、リング、グリッド、ランダムネットワークを含む)とパケットロスイベントに対して評価される。 そして, モデル更新におけるセンサのランダムな参加により, 通信オーバーヘッドとエネルギー消費の低減を考慮した。 その結果, 汎用マルチホップ無線ネットワーク上での協調スペクトルセンシングの実現可能性を示し, 無線ネットワーク効果に対するロバスト性を示し, 通信オーバヘッドの低減とエネルギー消費の低減を図った。

NextG networks are intended to provide the flexibility of sharing the spectrum with incumbent users and support various spectrum monitoring tasks such as anomaly detection, fault diagnostics, user equipment identification, and authentication. A network of wireless sensors is needed to monitor the spectrum for signal transmissions of interest over a large deployment area. Each sensor receives signals under a specific channel condition depending on its location and trains an individual model of a deep neural network (DNN) accordingly to classify signals. To improve the accuracy, individual sensors may exchange sensing data or sensor results with each other or with a fusion center (such as in cooperative spectrum sensing). In this paper, distributed federated learning over a multi-hop wireless network is considered to collectively train a DNN for signal identification. In distributed federated learning, each sensor broadcasts its trained model to its neighbors, collects the DNN models from its neighbors, and aggregates them to initialize its own model for the next round of training. Without exchanging any spectrum data, this process is repeated over time such that a common DNN is built across the network while preserving the privacy associated with signals collected at different locations. Signal classification accuracy and convergence time are evaluated for different network topologies (including line, star, ring, grid, and random networks) and packet loss events. Then, the reduction of communication overhead and energy consumption is considered with random participation of sensors in model updates. The results show the feasibility of extending cooperative spectrum sensing over a general multi-hop wireless network through federated learning and indicate its robustness to wireless network effects, thereby sustaining high accuracy with low communication overhead and energy consumption.
翻訳日:2022-04-08 16:03:47 公開日:2022-04-06
# 視覚障害者のディープフェイク検出

Audio-Visual Person-of-Interest DeepFake Detection ( http://arxiv.org/abs/2204.03083v1 )

ライセンス: Link先を確認
Davide Cozzolino, Matthias Nie{\ss}ner, Luisa Verdoliva(参考訳) 顔操作技術は非常に急速に進歩しており、新しい手法が日々提案されている。 本研究の目的は,現実世界で遭遇する多種多様な操作方法やシナリオに対応可能なディープフェイク検出器を提案することである。 私たちの重要な洞察は、合成発電機が再生できない特定の生体特性を持っていることです。 そこで我々は,人物の身元を特徴付ける高レベルの聴覚・視覚バイオメトリックな特徴を抽出し,その特徴を生かしたディープフェイク検出器(POI)を作成する。 対照的な学習パラダイムを用いて,各アイデンティティの最も識別性の高い移動面と音声セグメントの埋め込みを学習する。 その結果、人のビデオや音声が操作されると、埋め込み空間におけるその表現は実際のアイデンティティと矛盾し、信頼できる検出が可能となる。 訓練は実際の会話ビデオのみに行われるため、検出器は特定の操作方法に依存しず、最も一般化能力が得られる。 さらに,シングルモダリティ攻撃(オーディオのみ,ビデオのみ)とマルチモダリティ攻撃(オーディオビデオ)の両方を検出でき,高レベルのセマンティクス機能のみを基盤とした低品質ビデオや腐敗ビデオに対して堅牢である。 様々なデータセットを用いた実験により,高品質,低品質,アタックビデオでは平均で約3%,10%,7%のaucが改善され,soma性能が保証されることを確認した。

Face manipulation technology is advancing very rapidly, and new methods are being proposed day by day. The aim of this work is to propose a deepfake detector that can cope with the wide variety of manipulation methods and scenarios encountered in the real world. Our key insight is that each person has specific biometric characteristics that a synthetic generator cannot likely reproduce. Accordingly, we extract high-level audio-visual biometric features which characterize the identity of a person, and use them to create a person-of-interest (POI) deepfake detector. We leverage a contrastive learning paradigm to learn the moving-face and audio segments embeddings that are most discriminative for each identity. As a result, when the video and/or audio of a person is manipulated, its representation in the embedding space becomes inconsistent with the real identity, allowing reliable detection. Training is carried out exclusively on real talking-face videos, thus the detector does not depend on any specific manipulation method and yields the highest generalization ability. In addition, our method can detect both single-modality (audio-only, video-only) and multi-modality (audio-video) attacks, and is robust to low-quality or corrupted videos by building only on high-level semantic features. Experiments on a wide variety of datasets confirm that our method ensures a SOTA performance, with an average improvement in terms of AUC of around 3%, 10%, and 7% for high-quality, low quality and attacked videos, respectively.
翻訳日:2022-04-08 15:58:13 公開日:2022-04-06
# 画像と音声の書き起こしのための後期マルチモーダル融合

Late multimodal fusion for image and audio music transcription ( http://arxiv.org/abs/2204.03063v1 )

ライセンス: Link先を確認
Mar\'ia Alfaro-Contreras (1), Jose J. Valero-Mas (1), Jos\'e M. I\~nesta (1) and Jorge Calvo-Zaragoza (1) ((1) Instituto Universitario de Investigaci\'on Inform\'atica, University of Alicante, Alicante, Spain)(参考訳) 音楽情報検索 (MIR) の鍵となる課題は,音楽ソースを構造化されたデジタルフォーマットに変換する楽曲の書き起こしである。 計算用語でこの課題に取り組む際、mirコミュニティは、光学的音楽認識(omr)の例である音楽文書と、自動音楽転写(amt)の例である音声記録の2つの研究行に従っている。 上記の入力データの異なる性質は、これらの分野にモダリティ固有のフレームワークを開発するよう条件付けしている。 しかし、シーケンスラベリングタスクの観点からの最近の定義は共通の出力表現につながり、組み合わせパラダイムの研究を可能にしている。 この点において、マルチモーダル画像とオーディオ音楽の書き起こしは、画像と音声のモダリティによって伝達される情報を効果的に結合する課題を含む。 本研究では,格子型検索空間におけるエンドツーエンドのOMRとATTシステムに関する仮説を,初めて統合するための4つの組み合わせのアプローチについて検討する。 対応するシングルモダリティモデルが異なるエラー率をもたらす一連のパフォーマンスシナリオで得られた結果は、これらのアプローチの興味深い利点を示しました。 さらに、4つの戦略のうち2つは、対応する一助標準認識フレームワークを著しく改善した。

Music transcription, which deals with the conversion of music sources into a structured digital format, is a key problem for Music Information Retrieval (MIR). When addressing this challenge in computational terms, the MIR community follows two lines of research: music documents, which is the case of Optical Music Recognition (OMR), or audio recordings, which is the case of Automatic Music Transcription (AMT). The different nature of the aforementioned input data has conditioned these fields to develop modality-specific frameworks. However, their recent definition in terms of sequence labeling tasks leads to a common output representation, which enables research on a combined paradigm. In this respect, multimodal image and audio music transcription comprises the challenge of effectively combining the information conveyed by image and audio modalities. In this work, we explore this question at a late-fusion level: we study four combination approaches in order to merge, for the first time, the hypotheses regarding end-to-end OMR and AMT systems in a lattice-based search space. The results obtained for a series of performance scenarios -- in which the corresponding single-modality models yield different error rates -- showed interesting benefits of these approaches. In addition, two of the four strategies considered significantly improve the corresponding unimodal standard recognition frameworks.
翻訳日:2022-04-08 15:57:01 公開日:2022-04-06
# オンラインニューラルネットワークを用いた補聴器の終端最適化

End-To-End Optimization of Online Neural Network-supported Two-Stage Dereverberation for Hearing Devices ( http://arxiv.org/abs/2204.02978v1 )

ライセンス: Link先を確認
Jean-Marie Lemercier, Joachim Thiemann, Raphael Koning and Timo Gerkmann(参考訳) 本稿では,聴覚装置に対する2段階のオンライン残響アルゴリズムについて述べる。 このアプローチは、マルチチャネルマルチフレーム線形フィルタリングアプローチとシングルチャネルシングルフレームポストフィルタを組み合わせたものである。 どちらのコンポーネントも、ディープニューラルネットワーク(DNN)が提供するパワースペクトル密度(PSD)の推定に依存している。 この寄与は、DNNの出力に基準を配置してPSD推定を最適化するのと比較して、マルチチャネル線形フィルタリング段階の出力における基準を直接最適化することで、より効率的なデバーベレーションをもたらすことを示す。 本研究は,第一段階の残響性能が,訓練されたエンドツーエンドの残響率を特に向上させることを示す。 したがって, 早期から中期までの比改善の恩恵を受け, 残余残残余残響を効果的に抑制できるポストフィルタステージと組み合わせることが可能である。 提案した2段階の手順は, 残響性能と計算要求の両面において非常に効果的であることが示されている。 さらに, 早期反射の低減量を制御することで, 異なるタイプの聴覚デバイスユーザのニーズに適応できることを示す。 提案システムは、WHAMR!データセットのノイズフリーバージョンを用いた評価に基づいて、これまで提案されていたDNNサポート線形フィルタリングアルゴリズムや、他の従来の手法よりも優れている。

A two-stage online dereverberation algorithm for hearing devices is presented in this paper. The approach combines a multi-channel multi-frame linear filtering approach with a single-channel single-frame post-filter. Both components rely on power spectral density (PSD) estimates provided by deep neural networks (DNNs). This contribution extends our prior work, which shows that directly optimizing for a criterion at the output of the multi-channel linear filtering stage results in a more efficient dereverberation, as compared to placing the criterion at the output of the DNN to optimize the PSD estimation. In the present work, we show that the dereverberation performance of the proposed first stage particularly improves the early-to-mid reverberation ratio if trained end-to-end. We thus argue that it can be combined with a post-filtering stage which benefits from the early-to-mid ratio improvement and is consequently able to efficiently suppress the residual late reverberation. This proposed two stage procedure is shown to be both very effective in terms of dereverberation performance and computational demands. Furthermore, the proposed system can be adapted to the needs of different types of hearing-device users by controlling the amount of reduction of early reflections. The proposed system outperforms the previously proposed end-to-end DNN-supported linear filtering algorithm, as well as other traditional approaches, based on an evaluation using the noise-free version of the WHAMR! dataset.
翻訳日:2022-04-08 15:56:38 公開日:2022-04-06
# 長期記憶ニューラルネットワークを用いたシステム同定のためのDeep Transfer Learning

Deep transfer learning for system identification using long short-term memory neural networks ( http://arxiv.org/abs/2204.03125v1 )

ライセンス: Link先を確認
Kaicheng Niu, Mi Zhou, Chaouki T. Abdallah, Mohammad Hayajneh(参考訳) リカレントニューラルネットワーク(RNN)は、従来のシステム識別技術よりも多くの利点がある。 線形系や非線形系に適用でき、モデリングの仮定を少なくできる。 しかし、これらのニューラルネットワークモデルは、学習と一般化に大量のデータを必要とする可能性がある。 さらに、ニューラルネットワークトレーニングは時間を要するプロセスである。 そこで本研究では,長期記憶ニューラルネットワーク(LSTM)を用いて,パラメータの微調整と凍結という2種類のディープトランスファー学習を用いて,システム識別のためのデータと計算要件を削減することを提案する。 これらの手法を用いて、2階線形系とウィーナー・ハマースタイン非線形系という2つの力学系を同定する。 その結果,直接学習に比べて10%から50%の学習が促進され,データや計算資源も節約できることがわかった。

Recurrent neural networks (RNNs) have many advantages over more traditional system identification techniques. They may be applied to linear and nonlinear systems, and they require fewer modeling assumptions. However, these neural network models may also need larger amounts of data to learn and generalize. Furthermore, neural networks training is a time-consuming process. Hence, building upon long-short term memory neural networks (LSTM), this paper proposes using two types of deep transfer learning, namely parameter fine-tuning and freezing, to reduce the data and computation requirements for system identification. We apply these techniques to identify two dynamical systems, namely a second-order linear system and a Wiener-Hammerstein nonlinear system. Results show that compared with direct learning, our method accelerates learning by 10% to 50%, which also saves data and computing resources.
翻訳日:2022-04-08 15:56:19 公開日:2022-04-06
# 異なるグラフタイプ向けに設計されたグラフニューラルネットワーク:調査

Graph Neural Networks Designed for Different Graph Types: A Survey ( http://arxiv.org/abs/2204.03080v1 )

ライセンス: Link先を確認
Josephine M. Thomas and Alice Moallemy-Oureh and Silvia Beddar-Wiesing and Clara Holzh\"uter(参考訳) グラフは本質的にユビキタスであり、多くの実用的かつ理論的な問題のモデルとして機能する。 これに基づいて、グラフニューラルネットワーク(GNN)の若い研究分野が誕生した。 この分野の若さと新しいモデルの開発速度にもかかわらず、多くの優れた調査が過去数年間に発表されている。 それでも、gnnsによってモデル化できるグラフタイプの概要は失われている。 本調査では,既存のGNNの詳細な概要を述べるとともに,従来の調査と異なり,異なるグラフタイプを扱う能力に応じて分類する。 我々は、ノードまたはエッジ属性の有無に関わらず、異なる構造構成の動的グラフと同様に静的に動作するgnnを考える。 さらに、動的ケースでは、モデルをそのアーキテクチャに基づいて離散時間および連続時間動的グラフで分離する。 我々の研究によると、既存のGNNモデルではカバーされていないグラフ型がまだ存在する。 具体的には、属性の多様性に関するモデルが欠落しており、ノードとエッジの削除はめったにカバーされない。

Graphs are ubiquitous in nature and can therefore serve as models for many practical but also theoretical problems. Based on this, the young research field of Graph Neural Networks (GNNs) has emerged. Despite the youth of the field and the speed in which new models are developed, many good surveys have been published in the last years. Nevertheless, an overview on which graph types can be modeled by GNNs is missing. In this survey, we give a detailed overview of already existing GNNs and, unlike previous surveys, categorize them according to their ability to handle different graph types. We consider GNNs operating on static as well as on dynamic graphs of different structural constitutions, with or without node or edge attributes. Moreover in the dynamic case, we separate the models in discrete-time and continuous-time dynamic graphs based on their architecture. According to our findings, there are still graph types, that are not covered by existing GNN models. Specifically, models concerning heterogeneity in attributes are missing and the deletion of nodes and edges is only covered rarely.
翻訳日:2022-04-08 15:20:45 公開日:2022-04-06
# 統計的学習のための新しい非凸スムース・アット・オリジンペナルティ

A novel nonconvex, smooth-at-origin penalty for statistical learning ( http://arxiv.org/abs/2204.03123v1 )

ライセンス: Link先を確認
Majnu John, Sujit Vettam, Yihren Wu(参考訳) 非凸ペナルティ(nonconvex penalties)は、主にモデル内のパラメータに対して偏りのない、あるいは偏りのない推定子を与えるため、高次元統計学習アルゴリズムの正則化に使用される。 SCAD, MCP, Laplace, arctanなどの文献に存在する非凸ペナルティは、原点に特異性を持ち、変数選択にも有用である。 しかし、ディープラーニングのようないくつかの高次元フレームワークでは、変数の選択があまり問題にならない。 本稿では,原点において滑らかな非凸ペナルティを提案する。 本論文は,新たなペナルティ関数で正規化される通常の最小二乗推定器に対する漸近的結果を含み,指数関数的に急速に消失する漸近的バイアスを示す。 また,3つのデータセットのディープニューラルネットワークアーキテクチャと,4つのデータセットの畳み込みニューラルネットワークを用いた経験的研究を行った。 実証研究では、7つのデータセットのうち5つで新しい正規化アプローチのパフォーマンスが向上した。

Nonconvex penalties are utilized for regularization in high-dimensional statistical learning algorithms primarily because they yield unbiased or nearly unbiased estimators for the parameters in the model. Nonconvex penalties existing in the literature such as SCAD, MCP, Laplace and arctan have a singularity at origin which makes them useful also for variable selection. However, in several high-dimensional frameworks such as deep learning, variable selection is less of a concern. In this paper, we present a nonconvex penalty which is smooth at origin. The paper includes asymptotic results for ordinary least squares estimators regularized with the new penalty function, showing asymptotic bias that vanishes exponentially fast. We also conducted an empirical study employing deep neural network architecture on three datasets and convolutional neural network on four datasets. The empirical study showed better performance for the new regularization approach in five out of the seven datasets.
翻訳日:2022-04-08 15:18:42 公開日:2022-04-06
# 教師付き機械学習と特徴組合せを用いたウルドゥー語における虐待・脅威言語検出

Abusive and Threatening Language Detection in Urdu using Supervised Machine Learning and Feature Combinations ( http://arxiv.org/abs/2204.03062v1 )

ライセンス: Link先を確認
Muhammad Humayoun(参考訳) 本稿では,Urduの虐待・脅迫言語検出タスクにおけるFIRE共有タスク2021に提出されたシステム記述について述べる。 この課題は、urduで書かれた攻撃的で脅迫的なツイートを自動的に特定することを目的としている。 第3回大会には,提案結果が選定された。 本報告では,提案した結果に到達可能な実験の非実施リストを報告する。 さらに,コンペの結果宣言後,提案した結果よりも優れた結果が得られた。 提案手法では,タスクaでは0.8318 f1,タスクbでは0.4931 f1,タスクbでは0.4931 f1となった。 タスクBでは,Support Vector Machines with Stopwords removed, lemmatization not applied, lemmatization, and features vectors created by the combinations of word n-grams for n=1,2,3 produced the best results for Task A, for Task B, Support Vector Machines with stopwords removed, lemmatization not applied, feature vector created from a pre-trained Urdu Word2Vec (on word unigrams and bigrams), and make the dataset balanced using oversampling technique produced the best results。 コードは再現可能になっている。

This paper presents the system descriptions submitted at the FIRE Shared Task 2021 on Urdu's Abusive and Threatening Language Detection Task. This challenge aims at automatically identifying abusive and threatening tweets written in Urdu. Our submitted results were selected for the third recognition at the competition. This paper reports a non-exhaustive list of experiments that allowed us to reach the submitted results. Moreover, after the result declaration of the competition, we managed to attain even better results than the submitted results. Our models achieved 0.8318 F1 score on Task A (Abusive Language Detection for Urdu Tweets) and 0.4931 F1 score on Task B (Threatening Language Detection for Urdu Tweets). Results show that Support Vector Machines with stopwords removed, lemmatization applied, and features vector created by the combinations of word n-grams for n=1,2,3 produced the best results for Task A. For Task B, Support Vector Machines with stopwords removed, lemmatization not applied, feature vector created from a pre-trained Urdu Word2Vec (on word unigrams and bigrams), and making the dataset balanced using oversampling technique produced the best results. The code is made available for reproducibility.
翻訳日:2022-04-08 14:41:43 公開日:2022-04-06
# 教師付き機械学習と特徴の組み合わせを用いた2021年ウルドゥ偽ニュース検出タスク

The 2021 Urdu Fake News Detection Task using Supervised Machine Learning and Feature Combinations ( http://arxiv.org/abs/2204.03064v1 )

ライセンス: Link先を確認
Muhammad Humayoun(参考訳) 本稿では,FIRE共有タスクで提出されたシステム記述について述べる:「ウルドゥー語における2021年フェイクニュース検出」。 この課題は、urduで書かれた偽ニュースを自動的に識別することを目的としている。 私たちの提出した結果は大会で5位だった。 しかし、競争の結果が宣言された後、私たちは提出された結果よりもさらに良い結果を得ることができました。 私たちのモデルの1つで達成された最高のF1マクロスコアは0.6674であり、競争で2番目に高いスコアよりも高い。 その結果、Support Vector Machines (polynomial kernel degree 1) において、停止語を除去し、補題を適用し、合計1.57万のフィーチャのうち20Kのベストプラクティスを選択する(Word n-grams n=1,2,3,4 と Char n-grams n=2,3,4,5,6)。 コードは再現可能になっている。

This paper presents the system description submitted at the FIRE Shared Task: "The 2021 Fake News Detection in the Urdu Language". This challenge aims at automatically identifying Fake news written in Urdu. Our submitted results ranked fifth in the competition. However, after the result declaration of the competition, we managed to attain even better results than the submitted results. The best F1 Macro score achieved by one of our models is 0.6674, higher than the second-best score in the competition. The result is achieved on Support Vector Machines (polynomial kernel degree 1) with stopwords removed, lemmatization applied, and selecting the 20K best features out of 1.557 million features in total (which were produced by Word n-grams n=1,2,3,4 and Char n-grams n=2,3,4,5,6). The code is made available for reproducibility.
翻訳日:2022-04-08 14:41:16 公開日:2022-04-06
# ウルドゥの形態・正書法・語彙抽出

Urdu Morphology, Orthography and Lexicon Extraction ( http://arxiv.org/abs/2204.03071v1 )

ライセンス: Link先を確認
Muhammad Humayoun and Harald Hammarstr\"om and Aarne Ranta(参考訳) ウルドゥ語はペルソ・アラビア文字と第二に、その形態学的体系はアラビア語、ペルシア語、南アジアの原語の固有の文法的形態と語彙を持っているため、挑戦的な言語である。 本稿では, urdu言語をソフトウェアapiとして実装し, 正書法, 形態, 語彙抽出を扱う。 この形態はFunctional Morphology (Forsberg & Ranta, 2004)と呼ばれるツールキットで実装され、文法をソフトウェアライブラリとして扱うという考え方に基づいている。 したがって、この実装は、キーワードのインテリジェント検索、言語訓練、構文の基盤といったアプリケーションで再利用できる。 また、この再利用性を示すために、urdu構文の小さな部分の実装も提示する。

Urdu is a challenging language because of, first, its Perso-Arabic script and second, its morphological system having inherent grammatical forms and vocabulary of Arabic, Persian and the native languages of South Asia. This paper describes an implementation of the Urdu language as a software API, and we deal with orthography, morphology and the extraction of the lexicon. The morphology is implemented in a toolkit called Functional Morphology (Forsberg & Ranta, 2004), which is based on the idea of dealing grammars as software libraries. Therefore this implementation could be reused in applications such as intelligent search of keywords, language training and infrastructure for syntax. We also present an implementation of a small part of Urdu syntax to demonstrate this reusability.
翻訳日:2022-04-08 14:38:45 公開日:2022-04-06
# 深層学習画像のカラー化における異なる損失の分析

Analysis of Different Losses for Deep Learning Image Colorization ( http://arxiv.org/abs/2204.02980v1 )

ライセンス: Link先を確認
Coloma Ballester, Aur\'elie Bugeau, Hernan Carrillo, Micha\"el Cl\'ement, R\'emi Giraud, Lara Raad, Patricia Vitoria(参考訳) 画像のカラー化は、現実的な方法でグレースケール画像に色情報を追加することを目的としている。 最近の手法は主にディープラーニング戦略に依存している。 画像の自動色付けを学習しながら、所望の色出力に関連する目的関数を適切に定義することができる。 それらのいくつかは、予測された画像と地上の真実の間の特定のタイプのエラーに基づいているが、他の損失は知覚特性の比較に依存する。 しかし、目的関数の選択は、すなわち、結果において重要な役割を担っているのだろうか? 本章では,色度推定結果に対する損失関数の影響を分析することにより,この問題に対処することを目的とする。 その目的のために、文献で使用されるさまざまな損失と評価指標についてレビューする。 次に、古典的なL1とL2の損失と、Wasserstein GANやVGGベースのLPIPSの損失といったより複雑な組み合わせを含む、いくつかの評価対象関数を持つベースラインネットワークをトレーニングする。 その結果,VGGをベースとしたLPIPSでトレーニングしたモデルでは,ほとんどの評価指標に対して総合的に若干よい結果が得られた。 定性的結果は、Wasserstein GANとL2の損失、あるいはVGGベースのLPIPSでより鮮やかな色を示す。 最後に, 定量的ユーザ研究の便利さについても考察し, 基礎的真理が得られない古いアーカイブ写真の場合など, カラー画像の適正な評価の難しさを克服した。

Image colorization aims to add color information to a grayscale image in a realistic way. Recent methods mostly rely on deep learning strategies. While learning to automatically colorize an image, one can define well-suited objective functions related to the desired color output. Some of them are based on a specific type of error between the predicted image and ground truth one, while other losses rely on the comparison of perceptual properties. But, is the choice of the objective function that crucial, i.e., does it play an important role in the results? In this chapter, we aim to answer this question by analyzing the impact of the loss function on the estimated colorization results. To that goal, we review the different losses and evaluation metrics that are used in the literature. We then train a baseline network with several of the reviewed objective functions: classic L1 and L2 losses, as well as more complex combinations such as Wasserstein GAN and VGG-based LPIPS loss. Quantitative results show that the models trained with VGG-based LPIPS provide overall slightly better results for most evaluation metrics. Qualitative results exhibit more vivid colors when with Wasserstein GAN plus the L2 loss or again with the VGG-based LPIPS. Finally, the convenience of quantitative user studies is also discussed to overcome the difficulty of properly assessing on colorized images, notably for the case of old archive photographs where no ground truth is available.
翻訳日:2022-04-08 14:37:52 公開日:2022-04-06
# untrimmed videoからの学習:階層的一貫性を備えた自己教師付きビデオ表現学習

Learning from Untrimmed Videos: Self-Supervised Video Representation Learning with Hierarchical Consistency ( http://arxiv.org/abs/2204.03017v1 )

ライセンス: Link先を確認
Zhiwu Qing, Shiwei Zhang, Ziyuan Huang, Yi Xu, Xiang Wang, Mingqian Tang, Changxin Gao, Rong Jin, Nong Sang(参考訳) 自然ビデオは、自己監督学習のためのリッチな視覚コンテンツを提供する。 しかし、時空間表現を学習するための既存のアプローチのほとんどは、手動でトリミングされたビデオに依存しており、視覚パターンの多様性とパフォーマンスの向上が制限されている。 本研究では,未編集映像のより豊富な情報を活用することで表現の学習を目指す。 そこで本研究では,短い時間間隔で切り離すと視覚的に類似する傾向のあるクリップペアに対応する映像,すなわち視覚的一貫性とトピック的一貫性の階層を学習し,長い時間間隔で区切られた場合に類似したトピックを共有することを提案する。 具体的には、階層的な一貫性学習フレームワークHiCoを紹介し、視覚的に一貫したペアは対照的な学習を通じて同じ表現を推奨し、トポロジ的に一貫したペアはトピック関連かどうかを識別するトピック分類器を介して結合される。 さらに,階層的一貫性学習のための段階的サンプリングアルゴリズムを適用し,その理論的優越性を示す。 実験により,HiCoはトリミングされたビデオに強い表現を生成できるだけでなく,トリミングされたビデオに適用した場合の表現品質も向上することが示された。 これは標準のコントラスト学習とは対照的で、不適切なビデオから適切な表現を学ばない。

Natural videos provide rich visual contents for self-supervised learning. Yet most existing approaches for learning spatio-temporal representations rely on manually trimmed videos, leading to limited diversity in visual patterns and limited performance gain. In this work, we aim to learn representations by leveraging more abundant information in untrimmed videos. To this end, we propose to learn a hierarchy of consistencies in videos, i.e., visual consistency and topical consistency, corresponding respectively to clip pairs that tend to be visually similar when separated by a short time span and share similar topics when separated by a long time span. Specifically, a hierarchical consistency learning framework HiCo is presented, where the visually consistent pairs are encouraged to have the same representation through contrastive learning, while the topically consistent pairs are coupled through a topical classifier that distinguishes whether they are topic related. Further, we impose a gradual sampling algorithm for proposed hierarchical consistency learning, and demonstrate its theoretical superiority. Empirically, we show that not only HiCo can generate stronger representations on untrimmed videos, it also improves the representation quality when applied to trimmed videos. This is in contrast to standard contrastive learning that fails to learn appropriate representations from untrimmed videos.
翻訳日:2022-04-08 14:35:45 公開日:2022-04-06
# DSGN++:Stereoベースの3D検出器のための視覚空間関係の爆発

DSGN++: Exploiting Visual-Spatial Relation forStereo-based 3D Detectors ( http://arxiv.org/abs/2204.03039v1 )

ライセンス: Link先を確認
Yilun Chen, Shijia Huang, Shu Liu, Bei Yu, Jiaya Jia(参考訳) カメラベースの3Dオブジェクト検出器は、LiDARセンサーよりも広い展開と低価格のため歓迎されている。 我々は3次元幾何学と意味論の両方を表現するステレオボリューム構造について、以前のステレオモデリングDSGNを再考する。 ステレオモデリングを洗練し,2次元から3次元のパイプラインを通しての情報の流れを改善することを目的としたアプローチDSGN++を提案する。 まず,2次元情報をステレオボリュームに効果的に持ち上げるために,より密接な接続を可能にし,奥行き誘導特徴を抽出するDPSを提案する。 第2に、異なる空間的特徴をよりよく把握するために、新しいステレオボリュームであるデュアルビューステレオボリューム(dsv)を紹介し、フロントビューとトップビュー機能を統合し、カメラフラスタム内のサブボクセル深度を再構築する。 第3に,前景領域が3次元空間において支配的になるにつれて,まず,多モードデータ編集戦略であるStereo-LiDAR Copy-Pasteを提案する。 ベルやホイッスルがなければ、KITTIベンチマークにおける様々なモード設定の広範な実験により、我々の手法はあらゆるカテゴリで他のカメラベースの3D検出器よりも一貫して優れていることが示される。 コードはhttps://github.com/c henyilun95/DSGN2でリリースされる。

Camera-based 3D object detectors are welcome due to their wider deployment and lower price than LiDAR sensors. We revisit the prior stereo modeling DSGN about the stereo volume constructions for representing both 3D geometry and semantics. We polish the stereo modeling and propose our approach, DSGN++, aiming for improving information flow throughout the 2D-to-3D pipeline in the following three main aspects. First, to effectively lift the 2D information to stereo volume, we propose depth-wise plane sweeping (DPS) that allows denser connections and extracts depth-guided features. Second, for better grasping differently spaced features, we present a novel stereo volume -- Dual-view Stereo Volume (DSV) that integrates front-view and top-view features and reconstructs sub-voxel depth in the camera frustum. Third, as the foreground region becomes less dominant in 3D space, we firstly propose a multi-modal data editing strategy -- Stereo-LiDAR Copy-Paste, which ensures cross-modal alignment and improves data efficiency. Without bells and whistles, extensive experiments in various modality setups on the popular KITTI benchmark show that our method consistently outperforms other camera-based 3D detectors for all categories. Code will be released at https://github.com/c henyilun95/DSGN2.
翻訳日:2022-04-08 14:35:22 公開日:2022-04-06
# 大気圧下での熱可視画像合成

Thermal to Visible Image Synthesis under Atmospheric Turbulence ( http://arxiv.org/abs/2204.03057v1 )

ライセンス: Link先を確認
Kangfu Mei and Yiqun Mei and Vishal M. Patel(参考訳) バイオメトリックスやサーベイランスのような長距離イメージングの多くの実用的な応用において、熱イマジネーションモードは、低照度や夜間の撮影にしばしば用いられる。 しかし、このような画像システムはしばしば大気の乱れに悩まされ、撮像された画像に激しいぼやけや変形物をもたらす。 このような問題は長距離撮像では避けられず、顔認証精度が著しく低下する。 本稿では,実世界の熱画像における乱流シミュレーション手法の問題点を最初に考察する。 次に, 事前学習したstylegan2ネットワークに基づく自然画像前処理を利用して, 熱画像から可視分光画像へ直接変換するエンド・ツー・エンド再構成法を提案する。 本手法は, 連続的乱流緩和と熱可視画像変換の2段階法と比較し, 再構成結果の視覚的品質と顔認証精度の両面で有効であることを示した。 さらに、私たちの知る限りでは、これは大気乱流下での熱から可視的な画像翻訳の問題を研究する最初の研究である。

In many practical applications of long-range imaging such as biometrics and surveillance, thermal imagining modalities are often used to capture images in low-light and nighttime conditions. However, such imaging systems often suffer from atmospheric turbulence, which introduces severe blur and deformation artifacts to the captured images. Such an issue is unavoidable in long-range imaging and significantly decreases the face verification accuracy. In this paper, we first investigate the problem with a turbulence simulation method on real-world thermal images. An end-to-end reconstruction method is then proposed which can directly transform thermal images into visible-spectrum images by utilizing natural image priors based on a pre-trained StyleGAN2 network. Compared with the existing two-steps methods of consecutive turbulence mitigation and thermal to visible image translation, our method is demonstrated to be effective in terms of both the visual quality of the reconstructed results and face verification accuracy. Moreover, to the best of our knowledge, this is the first work that studies the problem of thermal to visible image translation under atmospheric turbulence.
翻訳日:2022-04-08 14:34:57 公開日:2022-04-06
# 自己最適輸送特徴変換

The Self-Optimal-Transpo rt Feature Transform ( http://arxiv.org/abs/2204.03065v1 )

ライセンス: Link先を確認
Daniel Shalam and Simon Korman(参考訳) Self-Optimal-Transpo rt (SOT)機能変換は、データインスタンスの機能セットをアップグレードして、下流のマッチングや関連するタスクのグループ化を容易にするように設計されている。 変換集合は、インスタンス特徴間の高階関係のリッチ表現を符号化する。 変換された特徴間の距離は、その本来の類似点と、セット内の他の特徴との類似点に関する第三者の合意を捉えている。 エントロピー正則化バージョンを最適輸送(OT)最適化により近似できるような,高効率,微分可能,等変,パラメータレス,確率論的に解釈可能な,特定の最小コスト-最大フロー分数マッチング問題である。 経験的には、この変換はその使用において非常に効果的で柔軟性があり、様々なタスクやトレーニングスキームで挿入されるネットワークを一貫して改善している。 我々は,非教師なしクラスタリングの問題と,その効率性と,数ショット分類への広範な適用性,最先端の結果,大規模人物再同定によるメリットを実証する。

The Self-Optimal-Transpo rt (SOT) feature transform is designed to upgrade the set of features of a data instance to facilitate downstream matching or grouping related tasks. The transformed set encodes a rich representation of high order relations between the instance features. Distances between transformed features capture their direct original similarity and their third party agreement regarding similarity to other features in the set. A particular min-cost-max-flow fractional matching problem, whose entropy regularized version can be approximated by an optimal transport (OT) optimization, results in our transductive transform which is efficient, differentiable, equivariant, parameterless and probabilistically interpretable. Empirically, the transform is highly effective and flexible in its use, consistently improving networks it is inserted into, in a variety of tasks and training schemes. We demonstrate its merits through the problem of unsupervised clustering and its efficiency and wide applicability for few-shot-classificat ion, with state-of-the-art results, and large-scale person re-identification.
翻訳日:2022-04-08 14:34:39 公開日:2022-04-06
# OSCARS:Outlier-Sensi tive Content-based Radiography Retrieval System

OSCARS: An Outlier-Sensitive Content-Based Radiography Retrieval System ( http://arxiv.org/abs/2204.03074v1 )

ライセンス: Link先を確認
Xiaoyuan Guo, Jiali Duan, Saptarshi Purkayastha, Hari Trivedi, Judy Wawira Gichoya and Imon Banerjee(参考訳) ノイズの多いデータセットの検索関連性の改善は、医療領域における大規模なクリーンデータセットのキュレーションの必要性が高まっている。 既存の手法はクラス単位での検索(クラス間)に応用できるが、同じクラス内での類似性の粒度(クラス内)を区別することはできない。 この問題は、同じクラスの騒がしいサンプルがトレーニング中に等しく扱われる医療外部データセットで悪化する。 我々のゴールは、細粒度検索のためのクラス内およびクラス間の類似性を識別することである。 そこで本研究では,2つのステップからなるアウトリア・コンテンツに基づくrAdiologhy Retrieval System(OSCARS)を提案する。 まず,クリーンな内部データセット上で,教師なしの方法で異常検出器をトレーニングする。 次に、トレーニングされた検出器を使用して外部データセットの異常スコアを生成し、その分布をクラス内の変動を2つにする。 次に,ビンアンカーa以外の同一クラスのビンからクラス内負のニントラをサンプリングし,クラス間から9rをランダムにサンプリングするクワッドラップレット(a,p,nintra,ninter)サンプリング戦略を提案する。 クラス内およびクラス間の機能学習のバランスをとるために,重み付きメトリック学習目標を提案する。 代表的な2つの公開ラジオグラフィーデータセットを実験した。 実験は我々のアプローチの有効性を示す。 トレーニングと評価コードはhttps://github.com/x iaoyuanguo/oscarsにある。

Improving the retrieval relevance on noisy datasets is an emerging need for the curation of a large-scale clean dataset in the medical domain. While existing methods can be applied for class-wise retrieval (aka. inter-class), they cannot distinguish the granularity of likeness within the same class (aka. intra-class). The problem is exacerbated on medical external datasets, where noisy samples of the same class are treated equally during training. Our goal is to identify both intra/inter-class similarities for fine-grained retrieval. To achieve this, we propose an Outlier-Sensitive Content-based rAdiologhy Retrieval System (OSCARS), consisting of two steps. First, we train an outlier detector on a clean internal dataset in an unsupervised manner. Then we use the trained detector to generate the anomaly scores on the external dataset, whose distribution will be used to bin intra-class variations. Second, we propose a quadruplet (a, p, nintra, ninter) sampling strategy, where intra-class negatives nintra are sampled from bins of the same class other than the bin anchor a belongs to, while niner are randomly sampled from inter-classes. We suggest a weighted metric learning objective to balance the intra and inter-class feature learning. We experimented on two representative public radiography datasets. Experiments show the effectiveness of our approach. The training and evaluation code can be found in https://github.com/X iaoyuanGuo/oscars.
翻訳日:2022-04-08 14:34:20 公開日:2022-04-06
# 映画理解のための階層的自己教師付き表現学習

Hierarchical Self-supervised Representation Learning for Movie Understanding ( http://arxiv.org/abs/2204.03101v1 )

ライセンス: Link先を確認
Fanyi Xiao, Kaustav Kundu, Joseph Tighe and Davide Modolo(参考訳) ほとんどの自己教師付きビデオ表現学習アプローチは、アクション認識に焦点を当てている。 そこで本研究では,映画理解のための自己教師あり映像学習に着目し,階層的映画理解モデル([37])の各レベルを個別に事前学習する新しい階層的自己教師あり事前学習戦略を提案する。 具体的には,コントラスト学習目標を用いて低レベルビデオバックボーンを事前学習し,イベントマスク予測タスクを用いて高レベルビデオコンテクストライザを事前学習し,階層の異なるレベルを事前学習するための異なるデータソースの使用を可能にすることを提案する。 筆者らはまず,VidSituベンチマーク[37]において,自己指導型事前学習戦略が有効であることを示し,すべてのタスクとメトリクスのパフォーマンス向上を図っている(セマンティックロール予測の47%から61%のCIDErスコアの改善など)。 さらに,LVUタスクを単独で使用する場合と,インスタンス機能と組み合わせた場合の両方において,コンテキスト化イベント機能の有効性を実証し,その相補性を示す。

Most self-supervised video representation learning approaches focus on action recognition. In contrast, in this paper we focus on self-supervised video learning for movie understanding and propose a novel hierarchical self-supervised pretraining strategy that separately pretrains each level of our hierarchical movie understanding model (based on [37]). Specifically, we propose to pretrain the low-level video backbone using a contrastive learning objective, while pretrain the higher-level video contextualizer using an event mask prediction task, which enables the usage of different data sources for pretraining different levels of the hierarchy. We first show that our self-supervised pretraining strategies are effective and lead to improved performance on all tasks and metrics on VidSitu benchmark [37] (e.g., improving on semantic role prediction from 47% to 61% CIDEr scores). We further demonstrate the effectiveness of our contextualized event features on LVU tasks [54], both when used alone and when combined with instance features, showing their complementarity.
翻訳日:2022-04-08 14:33:54 公開日:2022-04-06
# AutoCOR: TKA-postoperativelat eral Knee X-ray上の自律型コンディラーオフセット比電卓

AutoCOR: Autonomous Condylar Offset Ratio Calculator on TKA-Postoperative Lateral Knee X-ray ( http://arxiv.org/abs/2204.03120v1 )

ライセンス: Link先を確認
Gulsade Rabia Cakmak, Ibrahim Ethem Hamamci, Mehmet Kursat Yilmaz, Reda Alhajj, Ibrahim Azboy and Mehmet Kemal Ozdemir(参考訳) 術後の運動域は人工膝関節置換術(TKA)の結果を示す重要な因子の1つである。 文献では膝屈曲域と後顆オフセット(PCO)の相関が議論されているが,PCOはTKAの評価において重要である。 PCO測定の限界により,後頭顆オフセット比 (PCOR) と前頭顆オフセット比 (ACOR) の2つの新しいパラメータが導入された。 近年, 整形外科医は, PCORとACORの定量化を手作業で行うようになった。 そこで我々は,教師なし機械学習アルゴリズム(k-means clustering)とデジタル画像処理技術を用いて,PCORとACORを自律的に計算するソフトウェアAutoCORを開発した。 ソフトウェアAutoCORは、真の術後側方X線撮影において、大腿骨軸の前・後縁点及び前・後皮質を検出することができる。 このアルゴリズムをテストするために,istanbul kosuyolu medipol病院データベースから50個のx線写真(32例)を用いた。 PCORの平均値はソフトウェアで0.984 (SD 0.235) 、真理で0.972 (SD 0.164) であった。 ソフトウェアと基底真理(pearson r=0.845 p<0.0001)の強い相関関係を示す。 平均 acor はソフトウェアで 0.107 (sd 0.092) 、基底真理で 0.107 (sd 0.070) であった。 ソフトウェアと基底真理の中間的かつ有意な相関を示す(spearmanのrs=0.519 p=0.0001412)。 我々は,AutoCORが臨床に有用なツールであることが示唆された。

The postoperative range of motion is one of the crucial factors indicating the outcome of Total Knee Arthroplasty (TKA). Although the correlation between range of knee flexion and posterior condylar offset (PCO) is controversial in the literature, PCO maintains its importance on evaluation of TKA. Due to limitations on PCO measurement, two novel parameters, posterior condylar offset ratio (PCOR) and anterior condylar offset ratio (ACOR), were introduced. Nowadays, the calculation of PCOR and ACOR on plain lateral radiographs is done manually by orthopedic surgeons. In this regard, we developed a software, AutoCOR, to calculate PCOR and ACOR autonomously, utilizing unsupervised machine learning algorithm (k-means clustering) and digital image processing techniques. The software AutoCOR is capable of detecting the anterior/posterior edge points and anterior/posterior cortex of the femoral shaft on true postoperative lateral conventional radiographs. To test the algorithm, 50 postoperative true lateral radiographs from Istanbul Kosuyolu Medipol Hospital Database were used (32 patients). The mean PCOR was 0.984 (SD 0.235) in software results and 0.972 (SD 0.164) in ground truth values. It shows strong and significant correlation between software and ground truth values (Pearson r=0.845 p<0.0001). The mean ACOR was 0.107 (SD 0.092) in software results and 0.107 (SD 0.070) in ground truth values. It shows moderate and significant correlation between software and ground truth values (Spearman's rs=0.519 p=0.0001412). We suggest that AutoCOR is a useful tool that can be used in clinical practice.
翻訳日:2022-04-08 14:33:34 公開日:2022-04-06
# SOMOS: ニューラルテキスト音声合成評価のためのSamsung Open MOSデータセット

SOMOS: The Samsung Open MOS Dataset for the Evaluation of Neural Text-to-Speech Synthesis ( http://arxiv.org/abs/2204.03040v1 )

ライセンス: Link先を確認
Georgia Maniati, Alexandra Vioni, Nikolaos Ellinas, Karolos Nikitaras, Konstantinos Klapsas, June Sig Sung, Gunu Jho, Aimilios Chalamandaris and Pirros Tsiakoulis(参考訳) 本研究は,音声音声合成(TTS)のみからなる,最初の大規模平均世論スコア(MOS)データセットであるSOMOSデータセットを提案する。 現代の合成器の評価に焦点を当てた自動MOS予測システムの訓練に使用することができ、音響モデル評価の進歩を促進できる。 これは、ニューラルネットワークの音響モデルとボコーダを構築する一般的なベンチマークである、パブリックドメインの音声データセットであるlj speech voiceの20kの合成発話で構成されている。 発話は、バニラ神経音響モデルを含む200のTSSシステムと、韻律的変動を可能にするモデルから生成される。 lpcnetボコーダは全てのシステムで使用されており、サンプルの変動は音響モデルのみに依存する。 合成された発話は、バランスよく適切なドメインと長さのカバレッジを提供する。 本研究は,アマゾン・メカニカル・トルコの3地域を対象に,MOSの自然度評価を収集し,この課題に対するクラウドソースアノテーションの信頼性につながるプラクティスを共有する。 SOMOSデータセット上での最先端MOS予測モデルのベースライン結果を示すとともに、合成発話の評価に割り当てられた場合の課題を示す。

In this work, we present the SOMOS dataset, the first large-scale mean opinion scores (MOS) dataset consisting of solely neural text-to-speech (TTS) samples. It can be employed to train automatic MOS prediction systems focused on the assessment of modern synthesizers, and can stimulate advancements in acoustic model evaluation. It consists of 20K synthetic utterances of the LJ Speech voice, a public domain speech dataset which is a common benchmark for building neural acoustic models and vocoders. Utterances are generated from 200 TTS systems including vanilla neural acoustic models as well as models which allow prosodic variations. An LPCNet vocoder is used for all systems, so that the samples' variation depends only on the acoustic models. The synthesized utterances provide balanced and adequate domain and length coverage. We collect MOS naturalness evaluations on 3 English Amazon Mechanical Turk locales and share practices leading to reliable crowdsourced annotations for this task. Baseline results of state-of-the-art MOS prediction models on the SOMOS dataset are presented, while we show the challenges that such models face when assigned to evaluate synthetic utterances.
翻訳日:2022-04-08 14:08:48 公開日:2022-04-06
# 知覚・表現・生成:多モーダル情報をロボット運動軌道に翻訳する

Perceive, Represent, Generate: Translating Multimodal Information to Robotic Motion Trajectories ( http://arxiv.org/abs/2204.03051v1 )

ライセンス: Link先を確認
F\'abio Vital, Miguel Vasco, Alberto Sardinha, and Francisco Melo(参考訳) 本稿では,ロボットが実行する動作の適切なシーケンスに,命令のシーケンスに対応する様々なモード(例えば視覚や音)の知覚情報をマッピングする,新しい3段階のフレームワークであるPerceive-Represent-G enerate(PRG)を提案する。 最初の段階では、与えられた入力を認識し、事前処理し、人間のユーザが提供する完全な命令から個々のコマンドを分離する。 第2段階では、個々のコマンドを多モード潜在空間にエンコードし、深層生成モデルを用いる。 最後に、第3段階では、マルチモーダル潜在値を個々の軌跡に変換し、それらを単一の動的運動プリミティブに組み合わせ、ロボットプラットフォームでの実行を可能にする。 我々は,ロボットが異なる知覚的モーダル(画像,音など)を通して単語を入力として受け取り,それに対応する運動軌跡を生成し,一貫性と読みやすい手書き語を生成する,新しいロボット手書き作業の文脈でパイプラインを評価する。

We present Perceive-Represent-G enerate (PRG), a novel three-stage framework that maps perceptual information of different modalities (e.g., visual or sound), corresponding to a sequence of instructions, to an adequate sequence of movements to be executed by a robot. In the first stage, we perceive and pre-process the given inputs, isolating individual commands from the complete instruction provided by a human user. In the second stage we encode the individual commands into a multimodal latent space, employing a deep generative model. Finally, in the third stage we convert the multimodal latent values into individual trajectories and combine them into a single dynamic movement primitive, allowing its execution in a robotic platform. We evaluate our pipeline in the context of a novel robotic handwriting task, where the robot receives as input a word through different perceptual modalities (e.g., image, sound), and generates the corresponding motion trajectory to write it, creating coherent and readable handwritten words.
翻訳日:2022-04-08 14:08:31 公開日:2022-04-06
# AUV-Net: テクスチャ転送と合成のための協調UVマップの学習

AUV-Net: Learning Aligned UV Maps for Texture Transfer and Synthesis ( http://arxiv.org/abs/2204.03105v1 )

ライセンス: Link先を確認
Zhiqin Chen, Kangxue Yin, Sanja Fidler(参考訳) 本稿では,3次元形状のテクスチャ表現について,テクスチャの伝達と合成の難解で未熟な課題について論じる。 以前の作品では、大きな歪みをもたらす球面テクスチャマップを適用するか、詳細を欠いた滑らかなアウトプットを生成する連続テクスチャフィールドを使用する。 2D画像の合成はよく研究されている問題であるため、テクスチャを画像で表現し、UVマッピングを介して3Dメッシュにリンクする従来の方法の方が望ましいと我々は主張する。 本稿では,異なる3次元形状の対応する意味部分を同一位置のUV空間にマッピングすることにより,3次元曲面を2次元整列UV空間に埋め込むことを学習するAUV-Netを提案する。 その結果、テクスチャはオブジェクトにまたがってアライメントされ、画像の生成モデルによって容易に合成できる。 テクスチャアライメントは、単純だが効果的なテクスチャアライメントモジュールによって教師なしの方法で学習され、線形部分空間学習に関する伝統的な研究から着想を得ている。 学習されたUVマッピングとアライメントテクスチャ表現は、テクスチャ転送、テクスチャ合成、テクスチャ化された単一ビュー3D再構成などの様々なアプリケーションを可能にする。 提案手法の有効性を実証するため,複数のデータセットで実験を行った。 プロジェクトページ: https://nv-tlabs.git hub.io/AUV-NET

In this paper, we address the problem of texture representation for 3D shapes for the challenging and underexplored tasks of texture transfer and synthesis. Previous works either apply spherical texture maps which may lead to large distortions, or use continuous texture fields that yield smooth outputs lacking details. We argue that the traditional way of representing textures with images and linking them to a 3D mesh via UV mapping is more desirable, since synthesizing 2D images is a well-studied problem. We propose AUV-Net which learns to embed 3D surfaces into a 2D aligned UV space, by mapping the corresponding semantic parts of different 3D shapes to the same location in the UV space. As a result, textures are aligned across objects, and can thus be easily synthesized by generative models of images. Texture alignment is learned in an unsupervised manner by a simple yet effective texture alignment module, taking inspiration from traditional works on linear subspace learning. The learned UV mapping and aligned texture representations enable a variety of applications including texture transfer, texture synthesis, and textured single view 3D reconstruction. We conduct experiments on multiple datasets to demonstrate the effectiveness of our method. Project page: https://nv-tlabs.git hub.io/AUV-NET.
翻訳日:2022-04-08 14:03:44 公開日:2022-04-06
# bisyn-gat+:アスペクトベース感情分析のためのbi-syntax aware graph attention network

BiSyn-GAT+: Bi-Syntax Aware Graph Attention Network for Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2204.03117v1 )

ライセンス: Link先を確認
Shuo Liang, Wei Wei, Xian-Ling Mao, Fei Wang and Zhiyong He(参考訳) アスペクトベース感情分析(ABSA)は、アスペクト固有の感情極性推論のためのアスペクトと対応する感情を整合させることを目的とした、きめ細かい感情分析タスクである。 文には複数の側面や複雑な関係(例えば条件、調整、あるいは逆関係)が含まれているため、これは難しい。 近年,グラフニューラルネットワークを用いた依存構文情報の利用が注目されている。 その成功にもかかわらず、依存木に強く依存する手法は、関係木が無関係な関連(例えば図2の「偉大な」と「恐ろしい」の間の「コンジ」の関係)のノイズ信号を提供するため、その側面と感情を表す単語のアライメントを正確にモデル化する上で困難となる。 本稿では,この問題を軽減するために,Bi-Syntax対応グラフ注意ネットワーク(BiSyn-GAT+)を提案する。 具体的には、BiSyn-GAT+は、文の構成木の構文情報(例えば、句のセグメンテーションと階層構造)をフル活用して、すべての側面(文脈内と呼ばれる)の感情認識コンテキストと、アスペクト間の感情関係(コンテキスト間と呼ばれる)をモデル化する。 4つのベンチマークデータセットの実験では、BiSyn-GAT+は最先端の手法を一貫して上回っている。

Aspect-based sentiment analysis (ABSA) is a fine-grained sentiment analysis task that aims to align aspects and corresponding sentiments for aspect-specific sentiment polarity inference. It is challenging because a sentence may contain multiple aspects or complicated (e.g., conditional, coordinating, or adversative) relations. Recently, exploiting dependency syntax information with graph neural networks has been the most popular trend. Despite its success, methods that heavily rely on the dependency tree pose challenges in accurately modeling the alignment of the aspects and their words indicative of sentiment, since the dependency tree may provide noisy signals of unrelated associations (e.g., the "conj" relation between "great" and "dreadful" in Figure 2). In this paper, to alleviate this problem, we propose a Bi-Syntax aware Graph Attention Network (BiSyn-GAT+). Specifically, BiSyn-GAT+ fully exploits the syntax information (e.g., phrase segmentation and hierarchical structure) of the constituent tree of a sentence to model the sentiment-aware context of every single aspect (called intra-context) and the sentiment relations across aspects (called inter-context) for learning. Experiments on four benchmark datasets demonstrate that BiSyn-GAT+ outperforms the state-of-the-art methods consistently.
翻訳日:2022-04-08 13:35:04 公開日:2022-04-06
# 臨床自然言語処理タスクのスイート構築のための階層的アノテーション:進歩ノート理解

Hierarchical Annotation for Building A Suite of Clinical Natural Language Processing Tasks: Progress Note Understanding ( http://arxiv.org/abs/2204.03035v1 )

ライセンス: Link先を確認
Yanjun Gao, Dmitriy Dligach, Timothy Miller, Samuel Tesch, Ryan Laffin, Matthew M. Churpek, Majid Afshar(参考訳) 自然言語処理の手法を電子健康記録(EHR)データに適用することは成長分野である。 既存のコーパスとアノテーションはテキストの特徴のモデリングと関係予測に重点を置いている。 しかし、臨床診断思考をモデル化するための注釈付きコーパス、テキスト理解、ドメイン知識の抽象化、推論を含むプロセスがある。 本研究は,臨床テキスト理解,臨床推論,要約のための3段階の階層的アノテーションスキーマを導入する。 私たちは、問題指向の形式で時系列に収集される、ehrドキュメントの一種であるdaily progress notesの広範なコレクションに基づいて、注釈付きコーパスを作成しました。 進捗ノートの従来のフォーマットは、主観的、客観的、評価、計画の方向性(SOAP)に従っています。 3つのアノテーションステージを活用した,新たなタスクスイートであるprogress note understandingも定義しています。 新たなタスクスイートは、臨床テキスト理解、臨床知識表現、推論、要約のための将来のNLPモデルを訓練し、評価するために設計された。

Applying methods in natural language processing on electronic health records (EHR) data is a growing field. Existing corpus and annotation focus on modeling textual features and relation prediction. However, there is a paucity of annotated corpus built to model clinical diagnostic thinking, a process involving text understanding, domain knowledge abstraction and reasoning. This work introduces a hierarchical annotation schema with three stages to address clinical text understanding, clinical reasoning, and summarization. We created an annotated corpus based on an extensive collection of publicly available daily progress notes, a type of EHR documentation that is collected in time series in a problem-oriented format. The conventional format for a progress note follows a Subjective, Objective, Assessment and Plan heading (SOAP). We also define a new suite of tasks, Progress Note Understanding, with three tasks utilizing the three annotation stages. The novel suite of tasks was designed to train and evaluate future NLP models for clinical text understanding, clinical knowledge representation, inference, and summarization.
翻訳日:2022-04-08 13:30:19 公開日:2022-04-06
# 列車再スケジュール問題に適用した相反からの特徴抽出の標準化

Standardized feature extraction from pairwise conflicts applied to the train rescheduling problem ( http://arxiv.org/abs/2204.03061v1 )

ライセンス: Link先を確認
Anik\'o Kopacz, \'Agnes Mester, S\'andor Kolumb\'an and Csat\'o Lehel(参考訳) 強化学習フレームワークのインプットとして,一対の競合に基づく標準化された特徴選択を適用した列車再スケジューリングアルゴリズムを提案する。 本研究では,両列車間の衝突を識別・最適に解決する解析手法を実装し,これらの衝突を考慮した最も関連する情報を特徴とする観測空間の設計を行う。 この方法で得られたデータは、強化学習フレームワークのコンテキストにおけるアクションに変換される。 フラットランドチャレンジの評価指標を用いて予備モデルをテストする。 実験結果から,提案する機能空間は有意義な観察を提供し,そこから合理的なスケジューリングポリシーを学習できることが示唆された。

We propose a train rescheduling algorithm which applies a standardized feature selection based on pairwise conflicts in order to serve as input for the reinforcement learning framework. We implement an analytical method which identifies and optimally solves every conflict arising between two trains, then we design a corresponding observation space which features the most relevant information considering these conflicts. The data obtained this way then translates to actions in the context of the reinforcement learning framework. We test our preliminary model using the evaluation metrics of the Flatland Challenge. The empirical results indicate that the suggested feature space provides meaningful observations, from which a sensible scheduling policy can be learned.
翻訳日:2022-04-08 13:29:41 公開日:2022-04-06
# 知識を融合した復号

Knowledge Infused Decoding ( http://arxiv.org/abs/2204.03084v1 )

ライセンス: Link先を確認
Ruibo Liu, Guoqing Zheng, Shashank Gupta, Radhika Gaonkar, Chongyang Gao, Soroush Vosoughi, Milad Shokouhi, Ahmed Hassan Awadallah(参考訳) 事前学習された言語モデル(lms)は、事前学習されたコーパスからかなりの量の知識を記憶することが示されているが、特定の文脈において事実的に正しい知識を思い出すことには制限がある。 したがって、知識集約自然言語生成(nlg)タスクで使用されると、反事実的あるいは幻覚的な生成に苦しむ傾向がある。 この問題に対する最近の改善は、知識を組み込むために事前訓練またはタスクの微調整の目的を変更することに焦点を当てている。 本稿では、LMデコーディングの各ステップに外部知識を動的に注入する、生成型LMの新しいデコーディングアルゴリズムであるKnowledge Infused Decoding(KID)を提案する。 具体的には,現在の文脈に基づいたローカル知識メモリを維持し,動的に生成された外部知識トリエと対話し,強化学習による復号化を導くための知識認識制約としてローカルメモリを継続的に更新する。 6つの多様な知識集約型NLGタスクにおいて、KIDで武装したタスク非依存のLM(例えば、GPT-2とBART)は多くのタスク最適化された最先端モデルより優れ、特に7つの関連する知識注入技術に関する少数のシナリオにおいて強い性能を示す。 人間の評価は、複数のベースラインと比較すると、入力コンテキストに対してより関連性があり、現実的な言語を生成するKIDの能力を確認する。 最後に、KIDは露光バイアスを軽減し、長いシーケンスを生成する際に安定した生成品質を提供する。 KIDのコードはhttps://github.com/m icrosoft/KIDで公開されている。

Pre-trained language models (LMs) have been shown to memorize a substantial amount of knowledge from the pre-training corpora; however, they are still limited in recalling factually correct knowledge given a certain context. Hence, they tend to suffer from counterfactual or hallucinatory generation when used in knowledge-intensive natural language generation (NLG) tasks. Recent remedies to this problem focus on modifying either the pre-training or task fine-tuning objectives to incorporate knowledge, which normally require additional costly training or architecture modification of LMs for practical applications. We present Knowledge Infused Decoding (KID) -- a novel decoding algorithm for generative LMs, which dynamically infuses external knowledge into each step of the LM decoding. Specifically, we maintain a local knowledge memory based on the current context, interacting with a dynamically created external knowledge trie, and continuously update the local memory as a knowledge-aware constraint to guide decoding via reinforcement learning. On six diverse knowledge-intensive NLG tasks, task-agnostic LMs (e.g., GPT-2 and BART) armed with KID outperform many task-optimized state-of-the-art models, and show particularly strong performance in few-shot scenarios over seven related knowledge-infusion techniques. Human evaluation confirms KID's ability to generate more relevant and factual language for the input context when compared with multiple baselines. Finally, KID also alleviates exposure bias and provides stable generation quality when generating longer sequences. Code for KID is available at https://github.com/m icrosoft/KID.
翻訳日:2022-04-08 13:05:28 公開日:2022-04-06
# 微調整モデルの融合による事前学習の改善

Fusing finetuned models for better pretraining ( http://arxiv.org/abs/2204.03044v1 )

ライセンス: Link先を確認
Leshem Choshen, Elad Venezian, Noam Slonim, Yoav Katz(参考訳) 事前訓練されたモデルはトレーニングの標準的な出発点です。 このアプローチは、ランダム初期化の使用を一貫して上回る。 しかし、事前トレーニングは、ほとんどできないほどコストのかかる努力である。 本稿では,既存の複数の微調整モデルから1つのモデルに融合することで,より優れたベースモデルを作成する。 具体的には、これらのモデルの重みを平均することでヒューズします。 融合モデルの結果が事前学習モデルを上回ることを示す。 また、融合はインタートレーニングよりも良いこともしばしば示しています。 fusingはターゲットタスクに依存しないことが分かりました。 さらに、重み劣化は干渉効果を無効にするが、融合効果は無効である。

Pretrained models are the standard starting point for training. This approach consistently outperforms the use of a random initialization. However, pretraining is a costly endeavour that few can undertake. In this paper, we create better base models at hardly any cost, by fusing multiple existing fine tuned models into one. Specifically, we fuse by averaging the weights of these models. We show that the fused model results surpass the pretrained model ones. We also show that fusing is often better than intertraining. We find that fusing is less dependent on the target task. Furthermore, weight decay nullifies intertraining effects but not those of fusing.
翻訳日:2022-04-08 13:04:40 公開日:2022-04-06
# (参考訳) 感作的デジタル表現のためのアクティブラーニングの探索 [全文訳有]

An Exploration of Active Learning for Affective Digital Phenotyping ( http://arxiv.org/abs/2204.01915v2 )

ライセンス: CC BY 4.0
Peter Washington, Cezmi Mutlu, Aaron Kline, Cathy Hou, Kaitlyn Dunlap, Jack Kent, Arman Husic, Nate Stockham, Brianna Chrisman, Kelley Paskov, Jae-Yoon Jung, Dennis P. Wall(参考訳) 人間の行動に対する機械学習モデルの普及を阻止する最も深刻なボトルネックには、ラベル付きトレーニングデータの発掘や高品質なラベル取得の難しさなどがある。 アクティブラーニング(英: Active Learning)は、モデルの不確実性とデータ類似性の指標を用いて、データポイントの有用なサブセットを計算的に選択するアルゴリズムを使用するパラダイムである。 自然主義的コンピュータビジョン感情データに対するアクティブラーニングについて,本質的主観的ラベルによる,特に不均一で複雑なデータ空間について検討する。 自閉症児に対する治療用スマートフォンゲームから獲得したゲームプレイのフレームを用いて,ゲームプレイプロンプトをメタデータとして利用し,アクティブ学習プロセスを支援する。 ゲームプレイ中に生成された情報を用いた能動的学習は,同一数のラベル付きフレームのランダム選択よりも若干優れていた。 次に,情緒計算などの主観的データを用いてアクティブラーニングを行う手法と,複数のクラウドソースラベルを画像毎に取得できる手法について検討する。 児童感情表情(cafe)データセットを用いて,多数のラベルをクラウドソーシングするアクティブラーニングプロセスをシミュレートし,クラウドソーシングされたラベル分布のエントロピーを用いてフレームを優先順位付けすることで,ランダムフレーム選択に比べてカテゴリ間クロスエントロピー損失が低くなることを発見した。 これらの結果は,騒音条件下で収集した主観的感情データに対する2つの新しいアクティブ学習手法のパイロット評価を示す。

Some of the most severe bottlenecks preventing widespread development of machine learning models for human behavior include a dearth of labeled training data and difficulty of acquiring high quality labels. Active learning is a paradigm for using algorithms to computationally select a useful subset of data points to label using metrics for model uncertainty and data similarity. We explore active learning for naturalistic computer vision emotion data, a particularly heterogeneous and complex data space due to inherently subjective labels. Using frames collected from gameplay acquired from a therapeutic smartphone game for children with autism, we run a simulation of active learning using gameplay prompts as metadata to aid in the active learning process. We find that active learning using information generated during gameplay slightly outperforms random selection of the same number of labeled frames. We next investigate a method to conduct active learning with subjective data, such as in affective computing, and where multiple crowdsourced labels can be acquired for each image. Using the Child Affective Facial Expression (CAFE) dataset, we simulate an active learning process for crowdsourcing many labels and find that prioritizing frames using the entropy of the crowdsourced label distribution results in lower categorical cross-entropy loss compared to random frame selection. Collectively, these results demonstrate pilot evaluations of two novel active learning approaches for subjective affective data collected in noisy settings.
翻訳日:2022-04-08 12:43:28 公開日:2022-04-06
# (参考訳) psdoodle:インタラクティブなスケッチによるアプリの画面検索 [全文訳有]

PSDoodle: Searching for App Screens via Interactive Sketching ( http://arxiv.org/abs/2204.01968v2 )

ライセンス: CC BY 4.0
Soumik Mohian, Christoph Csallner(参考訳) キーワードベースのモバイル画面検索は、画面コンテンツを考慮せず、あらゆるレベルのユーザーにとって普遍的なツールとして機能しない。 ビジュアル検索(画像やスケッチなど)は構造化され、容易に適用できる。 現在のビジュアル検索のアプローチは、完全な画面で数えられるので、遅くて面倒だ。 PSDoodleはディープニューラルネットワークを用いて、デジタル描画インタフェース上で部分画面要素の描画を瞬時に認識し、結果をリアルタイムで表示する。 PSDoodleは、部分的なスケッチと、インタラクティブな反復的な方法で画面の検索を利用する最初のツールである。 PSDoodleは、異なる描画スタイルをサポートし、ユーザのスケッチクエリに関連する検索結果を取得する。 短いビデオデモは、https://youtu.be/3cv lhfm5py4で公開されている。

Keyword-based mobile screen search does not account for screen content and fails to operate as a universal tool for all levels of users. Visual searching (e.g., image, sketch) is structured and easy to adopt. Current visual search approaches count on a complete screen and are therefore slow and tedious. PSDoodle employs a deep neural network to recognize partial screen element drawings instantly on a digital drawing interface and shows results in real-time. PSDoodle is the first tool that utilizes partial sketches and searches for screens in an interactive iterative way. PSDoodle supports different drawing styles and retrieves search results that are relevant to the user's sketch query. A short video demonstration is available online at: https://youtu.be/3cV LHFm5pY4
翻訳日:2022-04-08 12:27:33 公開日:2022-04-06
# (参考訳) シンプルで効果的な教師なし音声合成 [全文訳有]

Simple and Effective Unsupervised Speech Synthesis ( http://arxiv.org/abs/2204.02524v1 )

ライセンス: CC BY 4.0
Alexander H. Liu, Cheng-I Jeff Lai, Wei-Ning Hsu, Michael Auli, Alexei Baevskiv, James Glass(参考訳) 本稿では,単純かつ効果的なレシピに基づく最初の教師なし音声合成システムを提案する。 このフレームワークは、教師なし音声認識および既存のニューラルベース音声合成における最近の研究を活用している。 本手法では, 音声音声とレキシコンのみを用いることで, 人手によるコーパスを必要とせず, 音声合成が可能となる。 実験では、教師なしシステムは、人間の評価によって測定された自然性と知性の観点から、教師なしのシステムと同様の音声を合成できることを示した。

We introduce the first unsupervised speech synthesis system based on a simple, yet effective recipe. The framework leverages recent work in unsupervised speech recognition as well as existing neural-based speech synthesis. Using only unlabeled speech audio and unlabeled text as well as a lexicon, our method enables speech synthesis without the need for a human-labeled corpus. Experiments demonstrate the unsupervised system can synthesize speech similar to a supervised counterpart in terms of naturalness and intelligibility measured by human evaluation.
翻訳日:2022-04-08 01:01:19 公開日:2022-04-06
# (参考訳) オフスクリーン自動ダビングにおける韻律的アライメント [全文訳有]

Prosodic Alignment for off-screen automatic dubbing ( http://arxiv.org/abs/2204.02530v1 )

ライセンス: CC BY 4.0
Yogesh Virkar, Marcello Federico, Robert Enyedi, Roberto Barra-Chicote(参考訳) 自動ドビングの目標は、視聴覚コヒーレンスを実現しながら音声から音声への翻訳を行うことである。 これは、その韻律構造を、特に話者の口が見える場合に、フレーズやポーズに合わせることによって、元のスピーチを翻訳する等時性を伴う。 前報では,アイソクロンやスクリーン上のダビングに対処する韻律アライメントモデルを導入した。 本研究では、同期制約を少なくするスクリーン外でのドッキングに対処するために、韻律アライメントモデルを拡張する。 我々は、TED TalksとYouTubeビデオの公開コレクションで、英語からフランス語、イタリア語、ドイツ語、スペイン語の4つのダビング方向の実験を行います。 実験結果から,前作に比べてプロソディックアライメントモデルの拡張は,発話の可視性や可視性のない文に対して,画面上と画面外の自動ドビングをそれぞれ適用したビデオにおける主観的視聴体験が有意に向上することが示された。

The goal of automatic dubbing is to perform speech-to-speech translation while achieving audiovisual coherence. This entails isochrony, i.e., translating the original speech by also matching its prosodic structure into phrases and pauses, especially when the speaker's mouth is visible. In previous work, we introduced a prosodic alignment model to address isochrone or on-screen dubbing. In this work, we extend the prosodic alignment model to also address off-screen dubbing that requires less stringent synchronization constraints. We conduct experiments on four dubbing directions - English to French, Italian, German and Spanish - on a publicly available collection of TED Talks and on publicly available YouTube videos. Empirical results show that compared to our previous work the extended prosodic alignment model provides significantly better subjective viewing experience on videos in which on-screen and off-screen automatic dubbing is applied for sentences with speakers mouth visible and not visible, respectively.
翻訳日:2022-04-08 00:48:49 公開日:2022-04-06
# (参考訳) 文単純化によるゼロショットイベント抽出の改善 [全文訳有]

Improving Zero-Shot Event Extraction via Sentence Simplification ( http://arxiv.org/abs/2204.02531v1 )

ライセンス: CC BY 4.0
Sneha Mehta, Huzefa Rangwala, Naren Ramakrishnan(参考訳) ACLEDやOur World in Dataといったサイトの成功は、ニュース、ソーシャルメディア、ブログ、ディスカッションフォーラムなどの形式で大量のテキストデータから構造化フォーマットでイベントを抽出する巨大なユーティリティを実証している。 イベント抽出は、進行中の地政学的危機への窓口を提供し、実行可能なインテリジェンスをもたらす。 大規模事前学習言語モデルの普及に伴い,近年,イベント抽出の新しいパラダイムとして機械読解言語(MRC)が出現している。 このアプローチでは、イベント引数抽出は抽出された質問応答タスクとして構成される。 MRCベースのアプローチの重要な利点の1つは、ゼロショット抽出を行う能力である。 しかし、長距離依存、すなわち引き起こし語と引数語の間の大きな語彙距離の問題と、構文的に複雑な文を処理することの難しさは、MDCベースのアプローチを悩ませている。 本稿では,MRCモデル自体が指導する教師なし文の単純化を行うことにより,MRCに基づくイベント抽出の性能を向上させるための一般的な手法を提案する。 我々は,ICEWS地政学的イベント抽出データセットに対する我々のアプローチを評価し,特に「アクター」と「ターゲット」の引数の役割に注目した。 本研究では,MRCに基づくイベント抽出の性能を,アクター抽出では5%以上,ターゲット抽出では10%以上向上させることができることを示す。

The success of sites such as ACLED and Our World in Data have demonstrated the massive utility of extracting events in structured formats from large volumes of textual data in the form of news, social media, blogs and discussion forums. Event extraction can provide a window into ongoing geopolitical crises and yield actionable intelligence. With the proliferation of large pretrained language models, Machine Reading Comprehension (MRC) has emerged as a new paradigm for event extraction in recent times. In this approach, event argument extraction is framed as an extractive question-answering task. One of the key advantages of the MRC-based approach is its ability to perform zero-shot extraction. However, the problem of long-range dependencies, i.e., large lexical distance between trigger and argument words and the difficulty of processing syntactically complex sentences plague MRC-based approaches. In this paper, we present a general approach to improve the performance of MRC-based event extraction by performing unsupervised sentence simplification guided by the MRC model itself. We evaluate our approach on the ICEWS geopolitical event extraction dataset, with specific attention to `Actor' and `Target' argument roles. We show how such context simplification can improve the performance of MRC-based event extraction by more than 5% for actor extraction and more than 10% for target extraction.
翻訳日:2022-04-08 00:34:54 公開日:2022-04-06
# (参考訳) 連続LWEはLWEと同じくらい硬く、ガウス混合学習への応用

Continuous LWE is as Hard as LWE & Applications to Learning Gaussian Mixtures ( http://arxiv.org/abs/2204.02550v1 )

ライセンス: CC BY 4.0
Aparna Gupte, Neekon Vafa, Vinod Vaikuntanathan(参考訳) 本稿では,LWE問題とCLWE(Bruna,Regev,Son g,Tang,STOC2021)との直接的,概念的に単純な相違点を示す。 これにより、LWEベースの暗号の強力な機械をCLWEの応用に適用することができる。 例えば、ギャップ最短ベクトル問題の古典的な最悪ケース硬さの下で、CLWEの硬さを得る。 以前は、これは格子問題の量子的最悪ケースハードネスの下でしか知られていなかった。 より広範に、この2つの問題の間の縮小により、LWEへの今後の開発はCLWEとその下流アプリケーションにも適用されるだろう。 具体的応用として,ガウス混合系の密度推定のための硬さ改善結果を示す。 この計算問題では、ガウスの混合物へのサンプルアクセスが与えられた場合、その混合物の密度関数を推定する関数を出力することが目的である。 古典的LWE問題の(楽観的で広く信じられている)指数的硬さの下で、約$\log n$ Gaussian 成分が $\mathsf{poly}(n)$ に与えられるガウス混合密度の推定は$n$で時間準多項式を必要とすることを示す。 LWE の(保存的な)多項式硬度の下では、任意の定数 $\epsilon > 0$ に対して $n^{\epsilon}$ Gaussian の密度推定の硬さを示し、これは、多項式(量子)硬さの仮定の下で少なくとも $\sqrt{n}$ Gaussians の硬さを示す Bruna, Regev, Song and Tang (STOC 2021) で改善する。 我々の重要な技術ツールは、音の乗法的な増加がわずか$o(\sqrt{k})$で、環境次元$n$とは無関係に、古典的なlweから$k$-sparseシークレットによるlweへの削減です。

We show direct and conceptually simple reductions between the classical learning with errors (LWE) problem and its continuous analog, CLWE (Bruna, Regev, Song and Tang, STOC 2021). This allows us to bring to bear the powerful machinery of LWE-based cryptography to the applications of CLWE. For example, we obtain the hardness of CLWE under the classical worst-case hardness of the gap shortest vector problem. Previously, this was known only under quantum worst-case hardness of lattice problems. More broadly, with our reductions between the two problems, any future developments to LWE will also apply to CLWE and its downstream applications. As a concrete application, we show an improved hardness result for density estimation for mixtures of Gaussians. In this computational problem, given sample access to a mixture of Gaussians, the goal is to output a function that estimates the density function of the mixture. Under the (plausible and widely believed) exponential hardness of the classical LWE problem, we show that Gaussian mixture density estimation in $\mathbb{R}^n$ with roughly $\log n$ Gaussian components given $\mathsf{poly}(n)$ samples requires time quasi-polynomial in $n$. Under the (conservative) polynomial hardness of LWE, we show hardness of density estimation for $n^{\epsilon}$ Gaussians for any constant $\epsilon > 0$, which improves on Bruna, Regev, Song and Tang (STOC 2021), who show hardness for at least $\sqrt{n}$ Gaussians under polynomial (quantum) hardness assumptions. Our key technical tool is a reduction from classical LWE to LWE with $k$-sparse secrets where the multiplicative increase in the noise is only $O(\sqrt{k})$, independent of the ambient dimension $n$.
翻訳日:2022-04-08 00:20:38 公開日:2022-04-06
# (参考訳) 密集した3次元表現とベンチマークを用いた野生の歩行認識 [全文訳有]

Gait Recognition in the Wild with Dense 3D Representations and A Benchmark ( http://arxiv.org/abs/2204.02569v1 )

ライセンス: CC BY 4.0
Jinkai Zheng, Xinchen Liu, Wu Liu, Lingxiao He, Chenggang Yan, Tao Mei(参考訳) 歩行認識に関する既存の研究は、制約された場面における人体のシルエットや骨格のような2次元表現によって支配されている。 しかし、人間は制約のない3D空間に住み、歩き回るので、3Dの人間の体を2D平面に投影すると、視線、形状、歩行認識のダイナミクスといった重要な情報がなくなる。 そこで本研究では,野生における歩行認識のための高密度な3次元表現について検討する。 特に,歩行認識のための人体の3次元スキンドマルチパーソンリニア(smpl)モデルであるsmplgaitを探索するための新しい枠組みを提案する。 本フレームワークは, シルエットから外観特徴を抽出し, 3次元SMPLモデルから3次元視点と形状の知識を学習する, 精巧に設計された2つの枝を持つ。 さらに,適切なデータセットの欠如により,大規模3次元表現に基づくgait認識データセットであるgait3dを構築した。 4000人の被験者と、39台のカメラから抽出された25,000以上のシーケンスを含む。 さらに重要なことは、ビデオフレームから回収された3d smplモデルを提供し、ボディ形状、視点、ダイナミックスの高密度な3d情報を提供する。 提案手法を既存の歩行認識手法と包括的に比較し,我々のフレームワークの優れた性能と,野生での歩行認識のための3次元表現の可能性を反映した。 コードとデータセットはhttps://gait3d.githu b.ioで入手できる。

Existing studies for gait recognition are dominated by 2D representations like the silhouette or skeleton of the human body in constrained scenes. However, humans live and walk in the unconstrained 3D space, so projecting the 3D human body onto the 2D plane will discard a lot of crucial information like the viewpoint, shape, and dynamics for gait recognition. Therefore, this paper aims to explore dense 3D representations for gait recognition in the wild, which is a practical yet neglected problem. In particular, we propose a novel framework to explore the 3D Skinned Multi-Person Linear (SMPL) model of the human body for gait recognition, named SMPLGait. Our framework has two elaborately-designed branches of which one extracts appearance features from silhouettes, the other learns knowledge of 3D viewpoints and shapes from the 3D SMPL model. In addition, due to the lack of suitable datasets, we build the first large-scale 3D representation-based gait recognition dataset, named Gait3D. It contains 4,000 subjects and over 25,000 sequences extracted from 39 cameras in an unconstrained indoor scene. More importantly, it provides 3D SMPL models recovered from video frames which can provide dense 3D information of body shape, viewpoint, and dynamics. Based on Gait3D, we comprehensively compare our method with existing gait recognition approaches, which reflects the superior performance of our framework and the potential of 3D representations for gait recognition in the wild. The code and dataset are available at https://gait3d.githu b.io.
翻訳日:2022-04-08 00:19:13 公開日:2022-04-06
# (参考訳) SqueezeNeRF:メモリ効率推論のためのさらなる因子化FastNeRF [全文訳有]

SqueezeNeRF: Further factorized FastNeRF for memory-efficient inference ( http://arxiv.org/abs/2204.02585v1 )

ライセンス: CC BY 4.0
Krishna Wadhwani, Tamaki Kojima(参考訳) NeRF(Neural Radiance Fields)は、複雑なシーンの新たなビュー生成のための最先端の手法として登場したが、推論では非常に遅い。 最近、NeRF推論を高速化する研究がいくつもあるが、リアルタイムNeRF推論の最先端技術はニューラルネットワークの出力をキャッシュすることに依存している。 Garbinらによると、元のNeRFネットワークのニューラルネットワークをキャッシュすることは不可能である。 この問題を2つのサブネットワークに分解する"FastNeRF" - サンプルポイントの3D座標にのみ依存するものと、2Dカメラの視聴方向にのみ依存するもの - が提案されている。 この因子化によってキャッシュサイズは小さくなり、毎秒200フレーム以上で推論できるが、メモリオーバーヘッドは依然として大きい。 本研究では,fastnerfのスパースキャッシュよりもメモリ効率が60倍以上で,推論中に190fps以上の高スペックgpuでレンダリングできるswashnerfを提案する。

Neural Radiance Fields (NeRF) has emerged as the state-of-the-art method for novel view generation of complex scenes, but is very slow during inference. Recently, there have been multiple works on speeding up NeRF inference, but the state of the art methods for real-time NeRF inference rely on caching the neural network output, which occupies several giga-bytes of disk space that limits their real-world applicability. As caching the neural network of original NeRF network is not feasible, Garbin et.al. proposed "FastNeRF" which factorizes the problem into 2 sub-networks - one which depends only on the 3D coordinate of a sample point and one which depends only on the 2D camera viewing direction. Although this factorization enables them to reduce the cache size and perform inference at over 200 frames per second, the memory overhead is still substantial. In this work, we propose SqueezeNeRF, which is more than 60 times memory-efficient than the sparse cache of FastNeRF and is still able to render at more than 190 frames per second on a high spec GPU during inference.
翻訳日:2022-04-08 00:01:48 公開日:2022-04-06
# (参考訳) 一般化された人物再同定のための実世界画像から3d文字への衣装のクローニング [全文訳有]

Cloning Outfits from Real-World Images to 3D Characters for Generalizable Person Re-Identification ( http://arxiv.org/abs/2204.02611v1 )

ライセンス: CC0 1.0
Yanan Wang, Xuezhi Liang, Shengcai Liao(参考訳) 近年、大規模合成データセットは、一般化可能な人物の再同定に非常に有用であることが示されている。 しかし、既存のデータセットで合成された人物は、主にマンガ的であり、ランダムなドレスのコロケーションであり、パフォーマンスを制限している。 これに対処するため、本研究では、実際の人物画像から仮想3d文字への衣装全体を直接クローンする自動アプローチが提案されている。 具体的には、UVテクスチャマッピングに基づいて、2つのクローニング方法、すなわち、登録された衣服マッピングと均質な布の展開を設計する。 人物画像から検出された衣服のキーポイントと、通常のuvマップに明快な衣服構造がラベル付けされていれば、登録されたマッピングは、実世界の服をuvマップの表に写し出すためにパースペクティブホモグラフィーを適用する。 見えない衣服部品や不規則なuvマップについては、均質な展開領域を写実的な布模様やセルとして均質に分割し、セルを拡大してuvマップを満たす。 さらに, 人物画像のクラスタリング, クラスタ毎のサンプリング, 3次元文字生成のためのクローン化などにより, 類似度・多様性の拡大戦略を提案する。 このようにして、仮想人物は、モデル学習に挑戦するために視覚的な類似性で密にスケールアップでき、標本分布を豊かにするために人口が多様になる。 最後に、Unity3Dシーンでクローンされた文字をレンダリングすることで、ClonedPersonと呼ばれるより現実的な仮想データセットが作成される。 実験の結果,clonedpersonでトレーニングされたモデルは,他の一般的な実世界および合成人再同定データセットでトレーニングされたモデルよりも優れた一般化性能を示すことがわかった。 ClonedPersonプロジェクトはhttps://github.com/Y anan-Wang-cs/ClonedP ersonで入手できる。

Recently, large-scale synthetic datasets are shown to be very useful for generalizable person re-identification. However, synthesized persons in existing datasets are mostly cartoon-like and in random dress collocation, which limits their performance. To address this, in this work, an automatic approach is proposed to directly clone the whole outfits from real-world person images to virtual 3D characters, such that any virtual person thus created will appear very similar to its real-world counterpart. Specifically, based on UV texture mapping, two cloning methods are designed, namely registered clothes mapping and homogeneous cloth expansion. Given clothes keypoints detected on person images and labeled on regular UV maps with clear clothes structures, registered mapping applies perspective homography to warp real-world clothes to the counterparts on the UV map. As for invisible clothes parts and irregular UV maps, homogeneous expansion segments a homogeneous area on clothes as a realistic cloth pattern or cell, and expand the cell to fill the UV map. Furthermore, a similarity-diversity expansion strategy is proposed, by clustering person images, sampling images per cluster, and cloning outfits for 3D character generation. This way, virtual persons can be scaled up densely in visual similarity to challenge model learning, and diversely in population to enrich sample distribution. Finally, by rendering the cloned characters in Unity3D scenes, a more realistic virtual dataset called ClonedPerson is created, with 5,621 identities and 887,766 images. Experimental results show that the model trained on ClonedPerson has a better generalization performance, superior to that trained on other popular real-world and synthetic person re-identification datasets. The ClonedPerson project is available at https://github.com/Y anan-Wang-cs/ClonedP erson.
翻訳日:2022-04-07 23:47:08 公開日:2022-04-06
# (参考訳) ログ命令品質評価のためのデータ駆動アプローチ [全文訳有]

Data-Driven Approach for Log Instruction Quality Assessment ( http://arxiv.org/abs/2204.02618v1 )

ライセンス: CC BY 4.0
Jasmin Bogatinovski, Sasho Nedelkoski, Alexander Acker, Jorge Cardoso, Odej Kao(参考訳) 現在のITの世界では、開発者はコードを書き、システムオペレータはブラックボックスとしてコードを実行する。 開発者は(未知の)オペレータにヒントを提供し、そこで発生した問題の原因が報告され、その逆もオペレータが操作中にバグを報告できる。 この目的を達成するために、開発者はログレベル(例えば、"info", "error")、静的テキスト(ip {} は到達できない)、動的変数(例えば、ip {})で構成される構造化テキストであるログ命令を記述する。 しかし、十分に習熟されたコーディングプラクティスとは対照的に、優れた品質特性を持つログ命令の記述方法に関するガイドラインは広く採用されていない。 例えば、開発者はオペレータを混乱させメンテナンスコストを増加させるような簡単なイベントに対して、高いログレベル(例えば"エラー")を割り当てることができる。 あるいは、静的テキストは特定の問題をヒントにするのに不十分である。 本稿では,ログ品質評価の問題に対処し,その自動化に向けた第一歩を提供する。 まず,9つのソフトウェアシステムの品質ログ命令特性の詳細な分析から始め,2つの品質特性を同定する。 1)ログレベルの正確性を評価するログレベル割り当ての補正、及び 2) イベント記述の冗長化に必要な静的テキストの最小富度を評価する十分な言語構造。 これらの知見に基づき,2つの特性のそれぞれに深層学習手法を適用するデータ駆動型手法を開発した。 大規模オープンソースシステムにおける広範囲な評価の結果,0.88の精度でログレベル割り当てを正しく評価し,f1スコア0.99の十分な言語構造を基準値に上回った。 本研究は,データ駆動型手法がインストラクションの品質を評価できる可能性を示し,より優れたコード理解と記述を支援する。

In the current IT world, developers write code while system operators run the code mostly as a black box. The connection between both worlds is typically established with log messages: the developer provides hints to the (unknown) operator, where the cause of an occurred issue is, and vice versa, the operator can report bugs during operation. To fulfil this purpose, developers write log instructions that are structured text commonly composed of a log level (e.g., "info", "error"), static text ("IP {} cannot be reached"), and dynamic variables (e.g. IP {}). However, as opposed to well-adopted coding practices, there are no widely adopted guidelines on how to write log instructions with good quality properties. For example, a developer may assign a high log level (e.g., "error") for a trivial event that can confuse the operator and increase maintenance costs. Or the static text can be insufficient to hint at a specific issue. In this paper, we address the problem of log quality assessment and provide the first step towards its automation. We start with an in-depth analysis of quality log instruction properties in nine software systems and identify two quality properties: 1) correct log level assignment assessing the correctness of the log level, and 2) sufficient linguistic structure assessing the minimal richness of the static text necessary for verbose event description. Based on these findings, we developed a data-driven approach that adapts deep learning methods for each of the two properties. An extensive evaluation on large-scale open-source systems shows that our approach correctly assesses log level assignments with an accuracy of 0.88, and the sufficient linguistic structure with an F1 score of 0.99, outperforming the baselines. Our study shows the potential of the data-driven methods in assessing instructions quality and aid developers in comprehending and writing better code.
翻訳日:2022-04-07 23:24:46 公開日:2022-04-06
# (参考訳) 雑音によるロバスト適応物体検出に向けて

Towards Robust Adaptive Object Detection under Noisy Annotations ( http://arxiv.org/abs/2204.02620v1 )

ライセンス: CC BY 4.0
Xinyu Liu, Wuyang Li, Qiushi Yang, Baopu Li, Yixuan Yuan(参考訳) ドメイン適応オブジェクト検出(DAOD)は、アノテーション付きソースドメインから画像とラベルの共分散をモデル化し、ドメイン不変変換を学び、対象のラベルを所定のターゲットのドメインイメージで推定する。 既存の手法では、ソースドメインラベルは完全にクリーンだが、大規模なデータセットにはインスタンスの曖昧さによるエラーを起こしやすいアノテーションが含まれていると仮定している。 本稿では,この課題に対処するために,ノイズレイテンシ・トランスファービリティ・エクスプロレーション(nlte)フレームワークを提案する。 特集されている 1) 候補インスタンスマイニング(pim)は,誤記されたインスタンスを背景から取り戻すために,適格な提案を利用する。 2)関係行列を持つ雑音サンプルの適応可能性と遷移確率をモデル化したMorphable Graph Relation Module (MGRM) 3)意味情報を識別プロセスに組み込んだエントロピー・アウェア・グラディエント・リコンシメント(EAGR)では,ノイズやクリーンなサンプルによって提供される勾配をドメイン不変表現の学習に整合させる。 ノイズの多いソースアノテーションを用いたベンチマークDAODデータセットの徹底的な評価は、NLTEの有効性を検証する。 特に、NLTEは、60\%の破損したアノテーションの下でmAPを8.4\%改善し、クリーンソースデータセット上の理想的なトレーニング上限にアプローチする。

Domain Adaptive Object Detection (DAOD) models a joint distribution of images and labels from an annotated source domain and learns a domain-invariant transformation to estimate the target labels with the given target domain images. Existing methods assume that the source domain labels are completely clean, yet large-scale datasets often contain error-prone annotations due to instance ambiguity, which may lead to a biased source distribution and severely degrade the performance of the domain adaptive detector de facto. In this paper, we represent the first effort to formulate noisy DAOD and propose a Noise Latent Transferability Exploration (NLTE) framework to address this issue. It is featured with 1) Potential Instance Mining (PIM), which leverages eligible proposals to recapture the miss-annotated instances from the background; 2) Morphable Graph Relation Module (MGRM), which models the adaptation feasibility and transition probability of noisy samples with relation matrices; 3) Entropy-Aware Gradient Reconcilement (EAGR), which incorporates the semantic information into the discrimination process and enforces the gradients provided by noisy and clean samples to be consistent towards learning domain-invariant representations. A thorough evaluation on benchmark DAOD datasets with noisy source annotations validates the effectiveness of NLTE. In particular, NLTE improves the mAP by 8.4\% under 60\% corrupted annotations and even approaches the ideal upper bound of training on a clean source dataset.
翻訳日:2022-04-07 23:00:49 公開日:2022-04-06
# (参考訳) 株価予測のための注意に基づくCNN-LSTMとXGBoostハイブリッドモデル [全文訳有]

Attention-based CNN-LSTM and XGBoost hybrid model for stock prediction ( http://arxiv.org/abs/2204.02623v1 )

ライセンス: CC BY 4.0
Zhuangwei Shi, Yang Hu, Guangliang Mo, Jian Wu(参考訳) 株式市場は経済発展において重要な役割を担っている。 株式市場の複雑なボラティリティのため、株価の変動に関する調査と予測は投資家のリスクを回避することができる。 従来の時系列モデルであるARIMAは非線形性を記述できず、株価予測において満足な結果が得られない。 ニューラルネットワークは強い非線形一般化能力を持つため,株価を予測するために注意に基づくCNN-LSTMとXGBoostハイブリッドモデルを提案する。 本稿では,時系列モデル,注意機構付き畳み込みニューラルネットワーク,長期記憶ネットワーク,xgboostレグレッサを非線形関係に統合し,予測精度を向上させる。 このモデルは、複数の期間で株式市場の歴史的情報を完全にマイニングすることができる。 株価データはまずARIMAを通じて前処理される。 そして、事前学習ファインタニングフレームワークで形成されるディープラーニングアーキテクチャを採用する。 事前学習モデルは、シーケンス・ツー・シーケンス・フレームワークに基づく注意に基づくCNN-LSTMモデルである。 モデルではまず、畳み込みを用いて元のストックデータの深い特徴を抽出し、その後長期記憶ネットワークを用いて長期時系列の特徴を抽出する。 最後に、XGBoostモデルは微調整に採用されている。 その結果、ハイブリッドモデルの方が効果が高く、予測精度が比較的高く、投資家や機関が意思決定を行い、リターンの拡大やリスク回避の目的を達成するのに役立つことが示された。 ソースコードはhttps://github.com/z shicode/Attention-CL X-stock-predictionで入手できる。

Stock market plays an important role in the economic development. Due to the complex volatility of the stock market, the research and prediction on the change of the stock price, can avoid the risk for the investors. The traditional time series model ARIMA can not describe the nonlinearity, and can not achieve satisfactory results in the stock prediction. As neural networks are with strong nonlinear generalization ability, this paper proposes an attention-based CNN-LSTM and XGBoost hybrid model to predict the stock price. The model constructed in this paper integrates the time series model, the Convolutional Neural Networks with Attention mechanism, the Long Short-Term Memory network, and XGBoost regressor in a non-linear relationship, and improves the prediction accuracy. The model can fully mine the historical information of the stock market in multiple periods. The stock data is first preprocessed through ARIMA. Then, the deep learning architecture formed in pretraining-finetuni ng framework is adopted. The pre-training model is the Attention-based CNN-LSTM model based on sequence-to-sequence framework. The model first uses convolution to extract the deep features of the original stock data, and then uses the Long Short-Term Memory networks to mine the long-term time series features. Finally, the XGBoost model is adopted for fine-tuning. The results show that the hybrid model is more effective and the prediction accuracy is relatively high, which can help investors or institutions to make decisions and achieve the purpose of expanding return and avoiding risk. Source code is available at https://github.com/z shicode/Attention-CL X-stock-prediction.
翻訳日:2022-04-07 22:58:56 公開日:2022-04-06
# (参考訳) 深い置換不変ネットワークを用いた超解極多重時間分割 [全文訳有]

Super-resolved multi-temporal segmentation with deep permutation-invarian t networks ( http://arxiv.org/abs/2204.02631v1 )

ライセンス: CC BY 4.0
Diego Valsesia, Enrico Magli(参考訳) シーンのマルチ時間衛星からのマルチイメージ超解像は、新しいディープラーニングモデルにより、最近大きな成功を収めている。 本稿では,超解像推論問題である意味セグメンテーションをセンシングプラットフォームよりも高い空間分解能で検討することで,従来の画像再構成をより高い解像度で達成する。 分割タスクに必要なリッチな意味情報を推測できる多分解能融合モジュールを用いて,時間的置換不変性を利用した最近のモデルを拡張した。 この論文で提示されたモデルは、最近、強化センチネル2農業に関するAI4EOチャレンジで優勝した。

Multi-image super-resolution from multi-temporal satellite acquisitions of a scene has recently enjoyed great success thanks to new deep learning models. In this paper, we go beyond classic image reconstruction at a higher resolution by studying a super-resolved inference problem, namely semantic segmentation at a spatial resolution higher than the one of sensing platform. We expand upon recently proposed models exploiting temporal permutation invariance with a multi-resolution fusion module able to infer the rich semantic information needed by the segmentation task. The model presented in this paper has recently won the AI4EO challenge on Enhanced Sentinel 2 Agriculture.
翻訳日:2022-04-07 22:49:29 公開日:2022-04-06
# (参考訳) DAGAM: 生成と修正によるデータ拡張 [全文訳有]

DAGAM: Data Augmentation with Generation And Modification ( http://arxiv.org/abs/2204.02633v1 )

ライセンス: CC BY 4.0
Byeong-Cheol Jo, Tak-Sung Heo, Yeongjoon Park, Yongmin Yoo, Won Ik Cho, Kyungsun Kim(参考訳) テキスト分類は自然言語処理の下流における代表的な課題であり,トランスフォーマーアーキテクチャに基づく事前学習言語モデルの出現以来,優れた性能を発揮している。 しかし、事前訓練された言語モデルでは、利用可能なトレーニングデータの量に比べてモデルのサイズが非常に大きいため、不適合な場合が多い。 現代の機械学習パラダイムにおけるデータ収集の重要性に加えて、自然言語データ拡張の研究も活発に行われている。 そこで本稿では,大規模言語モデルの不適合問題を軽減するために,データ拡張方式を3つ導入する。 主に、データ拡張(Data Augmentation with Generation:DAG)として定義されるデータ拡張に生成モデルを使用します。 次に、劣化や単語順変化などのテキスト修正技術を用いて、データ拡張を行う(Data Augmentation with Modification, DAM)。 最後に,DAGとDAMを併用したDAGAM(Data Augmentation with Generation And Modification)を提案する。 テキスト分類タスクの6つのベンチマークデータセットに対してデータ拡張を行い、BERTに基づく微調整と評価によりDAG, DAM, DAGAMの有用性を検証する。

Text classification is a representative downstream task of natural language processing, and has exhibited excellent performance since the advent of pre-trained language models based on Transformer architecture. However, in pre-trained language models, under-fitting often occurs due to the size of the model being very large compared to the amount of available training data. Along with significant importance of data collection in modern machine learning paradigm, studies have been actively conducted for natural language data augmentation. In light of this, we introduce three data augmentation schemes that help reduce underfitting problems of large-scale language models. Primarily we use a generation model for data augmentation, which is defined as Data Augmentation with Generation (DAG). Next, we augment data using text modification techniques such as corruption and word order change (Data Augmentation with Modification, DAM). Finally, we propose Data Augmentation with Generation And Modification (DAGAM), which combines DAG and DAM techniques for a boosted performance. We conduct data augmentation for six benchmark datasets of text classification task, and verify the usefulness of DAG, DAM, and DAGAM through BERT-based fine-tuning and evaluation, deriving better results compared to the performance with original datasets.
翻訳日:2022-04-07 22:43:02 公開日:2022-04-06
# (参考訳) 深層学習を用いた不安定なログデータからの故障同定 [全文訳有]

Failure Identification from Unstable Log Data using Deep Learning ( http://arxiv.org/abs/2204.02636v1 )

ライセンス: CC BY 4.0
Jasmin Bogatinovski, Sasho Nedelkoski, Li Wu, Jorge Cardoso, Odej Kao(参考訳) 社会はますますクラウド上で動く複雑なソフトウェアシステムに依存しているため、クラウドプラットフォームの信頼性は重要な意味を持つ。 クラウドプロバイダは、さまざまなメンテナンスタスクを自動化し、障害の特定を頻繁に検討している。 自動化の前提条件は可観測性ツールの可用性であり、システムログが一般的に使用されている。 本論文の焦点はログに基づく障害識別である。 この問題は、ログデータの不安定性と、コード内の明示的なロギング障害カバレッジの不完全性のため、難しい。 この2つの課題に対処するため、我々はCLogを障害識別の方法として提示する。 ここでは、ログデータをログイベントのシーケンスではなくサブプロセスのシーケンスとして表現することで、不安定なログデータの効果を低減できることを、我々の観察に基づいて示している。 CLogはコンテキスト対応ニューラルネットワークとクラスタリングを使って意味のあるサブプロセスを抽出する新しいサブプロセス抽出手法を導入した。 ログイベントコンテキストの直接的なモデリングにより、突然のコンテキスト変更に関する障害の識別が可能になり、ログ障害カバレッジの不足という課題に対処できる。 実験結果から,学習したサブプロセス表現が入力の不安定性を低減し,CLogが障害識別サブプロブレムのベースラインを上回り,F1スコアの9~24%の故障検出を行うことを確認した。 2) マクロ平均f1得点の失敗タイプ同定率は7%であった。 さらに,入力イベント列の不安定性と検出性能との負の相関をモデルに依存しない解析を行った。

The reliability of cloud platforms is of significant relevance because society increasingly relies on complex software systems running on the cloud. To improve it, cloud providers are automating various maintenance tasks, with failure identification frequently being considered. The precondition for automation is the availability of observability tools, with system logs commonly being used. The focus of this paper is log-based failure identification. This problem is challenging because of the instability of the log data and the incompleteness of the explicit logging failure coverage within the code. To address the two challenges, we present CLog as a method for failure identification. The key idea presented herein based is on our observation that by representing the log data as sequences of subprocesses instead of sequences of log events, the effect of the unstable log data is reduced. CLog introduces a novel subprocess extraction method that uses context-aware neural network and clustering methods to extract meaningful subprocesses. The direct modeling of log event contexts allows the identification of failures with respect to the abrupt context changes, addressing the challenge of insufficient logging failure coverage. Our experimental results demonstrate that the learned subprocesses representations reduce the instability in the input, allowing CLog to outperform the baselines on the failure identification subproblems - 1) failure detection by 9-24% on F1 score and 2) failure type identification by 7% on the macro averaged F1 score. Further analysis shows the existent negative correlation between the instability in the input event sequences and the detection performance in a model-agnostic manner.
翻訳日:2022-04-07 22:33:17 公開日:2022-04-06
# (参考訳) 低リソース環境における会話応答生成のための合成データの利用 [全文訳有]

Using Synthetic Data for Conversational Response Generation in Low-resource Settings ( http://arxiv.org/abs/2204.02653v1 )

ライセンス: CC BY-SA 4.0
Gabriel Louis Tan, Adrian Paule Ty, Schuyler Ng, Denzel Adrian Co, Jan Christian Blaise Cruz and Charibeth Cheng(参考訳) 応答生成は自然言語処理(nlp)のタスクであり、モデルが人間の文に応答するように訓練される。 会話応答生成器はこの一歩進めて、以前の応答のコンテキスト内で応答する能力を備える。 このようなモデルのトレーニングには既存のテクニックがあるが、いずれも低リソース言語では必ずしも利用できない会話データを必要とする。 本研究では3つの貢献を行う。 まず、フィリピンで人気のオンラインフォーラムから収集された最初のフィリピン語会話データセットをpex conversationsデータセットと名付けた。 次に,Tagalog RoBERTaモデルを用いて既存のコーパスのサイズを増大させることにより,フィリピンのデータに対するデータ拡張(DA)手法を提案する。 最後に,フィリピン初の対話応答生成装置を公開し,これまでの3つの応答に関する応答を生成する。 補足的な合成データを用いて,合成データゼロのトレーニングと比較して,最大12.2%のbertscore,10.7%のパープレキシティ,11.7%のコンテンツ単語使用率で応答生成性能を向上させることができた。

Response generation is a task in natural language processing (NLP) where a model is trained to respond to human statements. Conversational response generators take this one step further with the ability to respond within the context of previous responses. While there are existing techniques for training such models, they all require an abundance of conversational data which are not always available for low-resource languages. In this research, we make three contributions. First, we released the first Filipino conversational dataset collected from a popular Philippine online forum, which we named the PEx Conversations Dataset. Second, we introduce a data augmentation (DA) methodology for Filipino data by employing a Tagalog RoBERTa model to increase the size of the existing corpora. Lastly, we published the first Filipino conversational response generator capable of generating responses related to the previous 3 responses. With the supplementary synthetic data, we were able to improve the performance of the response generator by up to 12.2% in BERTScore, 10.7% in perplexity, and 11.7% in content word usage as compared to training with zero synthetic data.
翻訳日:2022-04-07 22:11:01 公開日:2022-04-06
# (参考訳) Yunshan Cup 2020:低リソース言語のための音声タグタスクの概要 [全文訳有]

Yunshan Cup 2020: Overview of the Part-of-Speech Tagging Task for Low-resourced Languages ( http://arxiv.org/abs/2204.02658v1 )

ライセンス: CC0 1.0
Yingwen Fu and Jinyi Chen and Nankai Lin and Xixuan Huang and Xinying Qiu and Shengyi Jiang(参考訳) yunshan cup 2020のトラックは、さまざまなpart-of-speech(pos)の方法を評価するフレームワークの作成に焦点を当てている。 このトラックには,(1)インドネシア語のPOSタグ付け,(2)ラオスのPOSタグ付けという2つのタスクがあった。 インドネシアのデータセットは、インドネシアのニュースから29タグで10000文からなる。 laoデータセットは27タグで8000文で構成されています。 25チームが登録された。 参加者の方法は、古典的な機械学習技術またはアンサンブル手法を使用して、特徴ベースからニューラルネットワークまで幅広い。 インドネシアでは95.82%、93.03%の精度を達成し、ニューラルシークエンスラベリングモデルは古典的な特徴に基づく手法やルールに基づく手法よりも大幅に優れていることを示した。

The Yunshan Cup 2020 track focused on creating a framework for evaluating different methods of part-of-speech (POS). There were two tasks for this track: (1) POS tagging for the Indonesian language, and (2) POS tagging for the Lao tagging. The Indonesian dataset is comprised of 10000 sentences from Indonesian news within 29 tags. And the Lao dataset consists of 8000 sentences within 27 tags. 25 teams registered for the task. The methods of participants ranged from feature-based to neural networks using either classical machine learning techniques or ensemble methods. The best performing results achieve an accuracy of 95.82% for Indonesian and 93.03%, showing that neural sequence labeling models significantly outperform classic feature-based methods and rule-based methods.
翻訳日:2022-04-07 22:01:53 公開日:2022-04-06
# (参考訳) セマンティックセマンティックセグメンテーションにおけるドメインに依存しない事前処理

Domain-Agnostic Prior for Transfer Semantic Segmentation ( http://arxiv.org/abs/2204.02684v1 )

ライセンス: CC BY 4.0
Xinyue Huo, Lingxi Xie, Hengtong Hu, Wengang Zhou, Houqiang Li, Qi Tian(参考訳) 教師なしドメイン適応(UDA)はコンピュータビジョンコミュニティにおいて重要なトピックである。 主な難点は、ソースドメインとターゲットドメインの共通の特性を定義して、ソースドメインの機能とターゲットドメインのセマンティクスを整合させることにある。 本稿では、ドメインに依存しない空間と整合するために、ソースおよびターゲットドメインから抽出した特徴を制約するドメインに依存しない事前学習(DAP)を用いてドメイン間表現学習を規則化する、シンプルで効果的なメカニズムを提案する。 実際には、これは少し余分なコストを必要とする余分な損失項として簡単に実装できる。 合成データを実データに転送する標準評価プロトコルにおいて,様々な種類のdapの有効性を検証し,特にセグメント化精度の観点から,最先端のudaアプローチを超える優れた性能を示すテキスト埋め込みモデルから借用した。 私たちの研究では、udaはより良いプロキシ、おそらく他のデータモダリティから多くの恩恵を受けています。

Unsupervised domain adaptation (UDA) is an important topic in the computer vision community. The key difficulty lies in defining a common property between the source and target domains so that the source-domain features can align with the target-domain semantics. In this paper, we present a simple and effective mechanism that regularizes cross-domain representation learning with a domain-agnostic prior (DAP) that constrains the features extracted from source and target domains to align with a domain-agnostic space. In practice, this is easily implemented as an extra loss term that requires a little extra costs. In the standard evaluation protocol of transferring synthesized data to real data, we validate the effectiveness of different types of DAP, especially that borrowed from a text embedding model that shows favorable performance beyond the state-of-the-art UDA approaches in terms of segmentation accuracy. Our research reveals that UDA benefits much from better proxies, possibly from other data modalities.
翻訳日:2022-04-07 21:55:28 公開日:2022-04-06
# (参考訳) データから閉形式数学モデルを学ぶための基礎的限界 [全文訳有]

Fundamental limits to learning closed-form mathematical models from data ( http://arxiv.org/abs/2204.02704v1 )

ライセンス: CC BY 4.0
Oscar Fajardo-Fontiveros, Ignasi Reichardt, Harry R. De Los Rios, Jordi Duch, Marta Sales-Pardo, Roger Guimera(参考訳) 閉形式数学モデルで生成された有限かつノイズの多いデータセットが与えられたとき、データのみから真の生成モデルを学ぶことはいつ可能か? これは私たちがここで調査する質問です。 このモデル学習問題は、真のモデルが学習できる低雑音位相から、観測ノイズが高すぎて、任意の方法によって真のモデルが学習できない段階への遷移を示す。 低雑音相と高雑音相の両方において、確率的モデル選択は、目に見えないデータに最適な一般化をもたらす。 これは、低ノイズの段階で制限された人工知能ニューラルネットワークを含む、標準的な機械学習アプローチとは対照的である。 学習可能相と学習不能相の遷移領域では、確率的モデル選択を含む全てのアプローチにおいて一般化は困難である。

Given a finite and noisy dataset generated with a closed-form mathematical model, when is it possible to learn the true generating model from the data alone? This is the question we investigate here. We show that this model-learning problem displays a transition from a low-noise phase in which the true model can be learned, to a phase in which the observation noise is too high for the true model to be learned by any method. Both in the low-noise phase and in the high-noise phase, probabilistic model selection leads to optimal generalization to unseen data. This is in contrast to standard machine learning approaches, including artificial neural networks, which are limited, in the low-noise phase, by their ability to interpolate. In the transition region between the learnable and unlearnable phases, generalization is hard for all approaches including probabilistic model selection.
翻訳日:2022-04-07 21:54:29 公開日:2022-04-06
# (参考訳) Mix-and-Match:ガウス混合埋め込みを用いたスケーラブルな対話応答検索 [全文訳有]

Mix-and-Match: Scalable Dialog Response Retrieval using Gaussian Mixture Embeddings ( http://arxiv.org/abs/2204.02710v1 )

ライセンス: CC BY 4.0
Gaurav Pandey, Danish Contractor and Sachindra Joshi(参考訳) ダイアログ応答検索のための埋め込みベースのアプローチは、コンテキスト応答ペアを埋め込み空間のポイントとして埋め込む。 これらのアプローチはスケーラブルであるが、コンテキスト応答対の間に存在する複雑な多対多の関係を考慮できない。 スペクトルの反対側には、複数のニューラルネットワーク層を通してコンテキスト応答ペアを協調的に供給するアプローチがある。 これらのアプローチは、文脈-応答ペア間の複雑な関係をモデル化できるが、応答の集合が適度に大きいとスケールしない(>100)。 本稿では,文脈応答対間の複雑な関係を学習できるスケーラブルなモデルを提案することによって,両世界の長所を組み合わせる。 具体的には、モデルがコンテキストと埋め込み空間上の確率分布への応答をマッピングする。 学習データ中の文脈応答対によって誘導される分布間のKulback-Leibler分散を最適化することによりモデルを訓練する。 その結果,公開会話データに対する他の組込み型アプローチと比較して,結果モデルの性能が向上することが示された。

Embedding-based approaches for dialog response retrieval embed the context-response pairs as points in the embedding space. These approaches are scalable, but fail to account for the complex, many-to-many relationships that exist between context-response pairs. On the other end of the spectrum, there are approaches that feed the context-response pairs jointly through multiple layers of neural networks. These approaches can model the complex relationships between context-response pairs, but fail to scale when the set of responses is moderately large (>100). In this paper, we combine the best of both worlds by proposing a scalable model that can learn complex relationships between context-response pairs. Specifically, the model maps the contexts as well as responses to probability distributions over the embedding space. We train the models by optimizing the Kullback-Leibler divergence between the distributions induced by context-response pairs in the training data. We show that the resultant model achieves better performance as compared to other embedding-based approaches on publicly available conversation data.
翻訳日:2022-04-07 21:40:59 公開日:2022-04-06
# (参考訳) ジェノサイド関連裁判所書写におけるトピックに基づく段落分類のための新しいデータセット [全文訳有]

A New Dataset for Topic-Based Paragraph Classification in Genocide-Related Court Transcripts ( http://arxiv.org/abs/2204.02712v1 )

ライセンス: CC BY 4.0
Miriam Schirmer, Udo Kruschwitz, Gregor Donabauer(参考訳) 自然言語処理の最近の進歩は多くの分野で印象的であり、トランスフォーマーベースのアプローチが幅広いアプリケーションに新しいベンチマークを設定している。 この開発により、nlpコミュニティ外の人々が様々なドメイン固有のアプリケーションに適用されるツールやリソースを利用するための障壁も低くなった。 しかし、調査や専門的な関心がすぐに手に入る範囲外になると、このボトルネックはいまだに注釈付き金本位制のコレクションがないままである。 そのような分野の1つがジェノサイド関連の研究(弁護士のような大規模な文書コレクションへのアクセス、探索、検索に関心を持つ専門家の仕事を含む)である。 本稿では,(1)コミュニティに第1の基準コーパスを提供すること,(2)暴力関連証人供述書の新たな分類タスクのベンチマークパフォーマンス(最先端のトランスフォーマーに基づくアプローチ)を確立すること,(3)ドメイン内の移行学習への第一歩を探求すること,の3つの目的を果たすジェノサイド関連裁判所文書の最初の注釈付きコーパスであるGTC(Genocide Transcript Corpus)を紹介する。 我々は、特に今年の言語技術に関するホットトピックに取り組むために、私たちの貢献を考えている。

Recent progress in natural language processing has been impressive in many different areas with transformer-based approaches setting new benchmarks for a wide range of applications. This development has also lowered the barriers for people outside the NLP community to tap into the tools and resources applied to a variety of domain-specific applications. The bottleneck however still remains the lack of annotated gold-standard collections as soon as one's research or professional interest falls outside the scope of what is readily available. One such area is genocide-related research (also including the work of experts who have a professional interest in accessing, exploring and searching large-scale document collections on the topic, such as lawyers). We present GTC (Genocide Transcript Corpus), the first annotated corpus of genocide-related court transcripts which serves three purposes: (1) to provide a first reference corpus for the community, (2) to establish benchmark performances (using state-of-the-art transformer-based approaches) for the new classification task of paragraph identification of violence-related witness statements, (3) to explore first steps towards transfer learning within the domain. We consider our contribution to be addressing in particular this year's hot topic on Language Technology for All.
翻訳日:2022-04-07 21:22:07 公開日:2022-04-06
# (参考訳) 構造移動を用いた赤外線映像からの太陽電池モジュールのジオレファレンス [全文訳有]

Georeferencing of Photovoltaic Modules from Aerial Infrared Videos using Structure-from-Motio n ( http://arxiv.org/abs/2204.02733v1 )

ライセンス: CC BY-SA 4.0
Lukas Bommes and Claudia Buerhop-Lutz and Tobias Pickel and Jens Hauch and Christoph Brabec and Ian Marius Peters(参考訳) 大規模PVプラントにおける異常な太陽光発電モジュールを経済的に識別するために、ドローン搭載赤外線カメラと自動ビデオ処理アルゴリズムが頻繁に使用される。 ほとんどの関連した作業は異常なモジュールの検出に焦点を当てているが、プラント内のモジュールを自動的にローカライズするためにはほとんど行われていない。 本研究では,植物中のすべてのPVモジュールのジオコーディネートを,視覚的手がかりと計測されたドローンのGPS軌跡に基づいて自動的に取得する。 さらに、各PVモジュールの複数のIR画像を抽出する。 提案手法を用いて,35084モジュールの99.3%を4つの大規模および1つの屋上プラントにマッピングし,2200万以上のモジュール画像を抽出した。 以前の研究と比べて、抽出したモジュールは18倍少ない(モジュール数は140個に1個、モジュール数は8個に1個)。 さらに、2つまたは3つのプラント列を同時に処理でき、モジュールスループットが増大し、それぞれ2.1と3.7の要因による飛行期間が短縮される。 大型植物の正確な直交写真と比較すると、推定されたモジュールの2乗誤差は5.87m、相対誤差は0.22mから0.82mである。 最後に,モジュールのジオコーディネートと抽出したIR画像を用いて,モジュール温度分布の可視化と深層学習分類器の異常予測を行う。 温度分布は切り離された文字列を識別するのに役立つが、モジュール異常の検出精度は、一般的な異常タイプ10のうち7つのうち深層学習分類器のそれを超えている。 このソフトウェアはhttps://github.com/L ukasBommes/PV-Hawk.c omで公開されている。

To identify abnormal photovoltaic (PV) modules in large-scale PV plants economically, drone-mounted infrared (IR) cameras and automated video processing algorithms are frequently used. While most related works focus on the detection of abnormal modules, little has been done to automatically localize those modules within the plant. In this work, we use incremental structure-from-motio n to automatically obtain geocoordinates of all PV modules in a plant based on visual cues and the measured GPS trajectory of the drone. In addition, we extract multiple IR images of each PV module. Using our method, we successfully map 99.3 % of the 35084 modules in four large-scale and one rooftop plant and extract over 2.2 million module images. As compared to our previous work, extraction misses 18 times less modules (one in 140 modules as compared to one in eight). Furthermore, two or three plant rows can be processed simultaneously, increasing module throughput and reducing flight duration by a factor of 2.1 and 3.7, respectively. Comparison with an accurate orthophoto of one of the large-scale plants yields a root mean square error of the estimated module geocoordinates of 5.87 m and a relative error within each plant row of 0.22 m to 0.82 m. Finally, we use the module geocoordinates and extracted IR images to visualize distributions of module temperatures and anomaly predictions of a deep learning classifier on a map. While the temperature distribution helps to identify disconnected strings, we also find that its detection accuracy for module anomalies reaches, or even exceeds, that of a deep learning classifier for seven out of ten common anomaly types. The software is published at https://github.com/L ukasBommes/PV-Hawk.
翻訳日:2022-04-07 21:05:58 公開日:2022-04-06
# (参考訳) 金融リターンの非線形要因化は、より良い安定したポートフォリオを構築するのに役立つか? [全文訳有]

Does non-linear factorization of financial returns help build better and stabler portfolios? ( http://arxiv.org/abs/2204.02757v1 )

ライセンス: CC BY 4.0
Bruno Spilak and Wolfgang Karl H\"ardle(参考訳) 線形および非線形の潜在制約条件因子に基づくポートフォリオ割り当て手法を提案する。 ファクタローディングは、古典的因子分析やPCAでは保証されない長期限定のポートフォリオを得るために、常に正となるよう制約されている。 さらに、長期的なポートフォリオを構築するには、これらの要因はクラスタ間で無関係である必要がある。 我々のアプローチは、凸非負行列因子化(NMF)とオートエンコーダニューラルネットワークという現代の機械学習ツールに基づいており、資産のリターン間の相関のような有用な隠れデータ構造を学習するために、特定の方法で設計されている。 本手法は,階層的クラスタリング手法と同様に,暗号通貨と従来の資産からなるグローバルポートフォリオの上位パフォーマンスを構築するために使用される,低相関線形および非線形条件付き潜在要因を見いだす。 ポートフォリオのテール損失を予測し,より安定な要素を構築するために,導出した非線形因子のダイナミクスについて検討する。

A portfolio allocation method based on linear and non-linear latent constrained conditional factors is presented. The factor loadings are constrained to always be positive in order to obtain long-only portfolios, which is not guaranteed by classical factor analysis or PCA. In addition, the factors are to be uncorrelated among clusters in order to build long-only portfolios. Our approach is based on modern machine learning tools: convex Non-negative Matrix Factorization (NMF) and autoencoder neural networks, designed in a specific manner to enforce the learning of useful hidden data structure such as correlation between the assets' returns. Our technique finds lowly correlated linear and non-linear conditional latent factors which are used to build outperforming global portfolios consisting of cryptocurrencies and traditional assets, similar to hierarchical clustering method. We study the dynamics of the derived non-linear factors in order to forecast tail losses of the portfolios and thus build more stable ones.
翻訳日:2022-04-07 20:46:55 公開日:2022-04-06
# (参考訳) bfrnet : 有意な病態感受性源を含む脳のqsmに対する深層学習に基づくmr背景野除去法 [全文訳有]

BFRnet: A deep learning-based MR background field removal method for QSM of the brain containing significant pathological susceptibility sources ( http://arxiv.org/abs/2204.02760v1 )

ライセンス: CC BY 4.0
Xuanyu Zhu, Yang Gao, Feng Liu, Stuart Crozier, Hongfu Sun(参考訳) 導入:背景野除去(BFR)は定量的感受性マッピング(QSM)の成功に必要な重要なステップである。 しかし,脳内出血などの重要な感受性源を含む脳の背景野の除去は,これらの病態感受性源によって引き起こされる磁場の比較的大きなスケールのため困難である。 方法:本研究では,健常者および出血患者の背景領域を除去するために,新たな深層学習に基づくBFRnetを提案する。 ネットワークはU-netアーキテクチャ上の2周波数オクターブ畳み込みで構築され、重要な感受性源を含む合成フィールドマップで訓練されている。 BFRnet法は,4名の健常者および2名の出血患者の脳を模擬・生体内脳を用いて,従来の3種類のBFR法と比較した。 獲得視野(FOV)指向と脳マスクに対するロバスト性についても検討した。 結果: シミュレーションと生体内実験の両方において, BFRnetは局所野において最も視覚的に魅力的な結果となり, QSMは最小コントラスト損失と最も正確な出血感受性の測定値を得た。 さらに、BFRnetは、脳マスクの大きさの異なる最も一貫した局所的および感受性マップを作成し、従来の方法は、正確な脳の抽出とさらなる脳の縁の浸食に大きく依存していた。 また、BFRnetは、主磁場に対して斜めにFOVを取得するために、すべてのBFR法の中で最善を尽くした。 結語:BFRnetは,従来のBFRアルゴリズムと比較して出血症例の局所的局所的再建の精度を向上した。 BFRnet法は、従来のBFR法でしばしば必要とされるように、エッジ侵食を伴わないタイトル指向の獲得に有効であった。

Introduction: Background field removal (BFR) is a critical step required for successful quantitative susceptibility mapping (QSM). However, eliminating the background field in brains containing significant susceptibility sources, such as intracranial hemorrhages, is challenging due to the relatively large scale of the field induced by these pathological susceptibility sources. Method: This study proposes a new deep learning-based method, BFRnet, to remove background field in healthy and hemorrhagic subjects. The network is built with the dual-frequency octave convolutions on the U-net architecture, trained with synthetic field maps containing significant susceptibility sources. The BFRnet method is compared with three conventional BFR methods and one previous deep learning method using simulated and in vivo brains from 4 healthy and 2 hemorrhagic subjects. Robustness against acquisition field-of-view (FOV) orientation and brain masking are also investigated. Results: For both simulation and in vivo experiments, BFRnet led to the best visually appealing results in the local field and QSM results with the minimum contrast loss and the most accurate hemorrhage susceptibility measurements among all five methods. In addition, BFRnet produced the most consistent local field and susceptibility maps between different sizes of brain masks, while conventional methods depend drastically on precise brain extraction and further brain edge erosions. It is also observed that BFRnet performed the best among all BFR methods for acquisition FOVs oblique to the main magnetic field. Conclusion: The proposed BFRnet improved the accuracy of local field reconstruction in the hemorrhagic subjects compared with conventional BFR algorithms. The BFRnet method was effective for acquisitions of titled orientations and retained whole brains without edge erosion as often required by traditional BFR methods.
翻訳日:2022-04-07 20:17:00 公開日:2022-04-06
# (参考訳) グラフネットワークは大規模分子系にどのように一般化するか? [全文訳有]

How Do Graph Networks Generalize to Large and Diverse Molecular Systems? ( http://arxiv.org/abs/2204.02782v1 )

ライセンス: CC BY 4.0
Johannes Gasteiger, Muhammed Shuaibi, Anuroop Sriram, Stephan G\"unnemann, Zachary Ulissi, C. Lawrence Zitnick, Abhishek Das(参考訳) 原子グラフニューラルネットワークの進歩を示す主要な方法は、小さくて限られたデータセットのベンチマークである。 このアプローチの背後にある暗黙の仮説は、これらの狭いデータセットの進歩が化学の大きな多様性に一般化するということである。 この一般化性は研究に非常に役立つが、現在はまだ検証されていない。 この研究では、多くのデータセットが欠けている複雑さの4つの側面を特定することで、この仮定をテストする。 1.化学多様性(異なる元素の数) 2. システムサイズ(サンプル当たりの原子数) 3.データセットのサイズ(データサンプル数)、 4. ドメインシフト(トレーニングとテストセットの類似性)。 それぞれの側面を独立して調査するために、大きなOpen Catalyst 2020 (OC20)データセットの複数のサブセットを紹介します。 次に、従来提案されていた9つのデータセットと新しいモデル拡張を比較検討し、21のアブレーション研究と感度分析を行った。 いくつかの改善はデータセット間で一貫性があるが、多くはそうではなく、一部は反対の効果を持っている。 この分析から,全OC20データセットと相関する小さなデータセットを特定し,従来のOC20の最先端を16%上回り,トレーニング時間を10倍に短縮するGemNet-OCモデルを提案する。 全体として,グラフニューラルネットワークはデータセットのサイズや多様性とは無関係に機能する,という一般的な信念に挑戦し,狭いデータセットに基づいた一般化には注意が必要であることを示唆した。

The predominant method of demonstrating progress of atomic graph neural networks are benchmarks on small and limited datasets. The implicit hypothesis behind this approach is that progress on these narrow datasets generalize to the large diversity of chemistry. This generalizability would be very helpful for research, but currently remains untested. In this work we test this assumption by identifying four aspects of complexity in which many datasets are lacking: 1. Chemical diversity (number of different elements), 2. system size (number of atoms per sample), 3. dataset size (number of data samples), and 4. domain shift (similarity of the training and test set). We introduce multiple subsets of the large Open Catalyst 2020 (OC20) dataset to independently investigate each of these aspects. We then perform 21 ablation studies and sensitivity analyses on 9 datasets testing both previously proposed and new model enhancements. We find that some improvements are consistent between datasets, but many are not and some even have opposite effects. Based on this analysis, we identify a smaller dataset that correlates well with the full OC20 dataset, and propose the GemNet-OC model, which outperforms the previous state-of-the-art on OC20 by 16%, while reducing training time by a factor of 10. Overall, our findings challenge the common belief that graph neural networks work equally well independent of dataset size and diversity, and suggest that caution must be exercised when making generalizations based on narrow datasets.
翻訳日:2022-04-07 20:08:52 公開日:2022-04-06
# (参考訳) 医療のための言語技術のグローバルな即応性:次のパンデミックと戦うために何が必要か? [全文訳有]

Global Readiness of Language Technology for Healthcare: What would it Take to Combat the Next Pandemic? ( http://arxiv.org/abs/2204.02790v1 )

ライセンス: CC BY 4.0
Ishani Mondal, Kabir Ahuja, Mohit Jain, Jacki O Neil, Kalika Bali, Monojit Choudhury(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、最高の言語技術と最悪の言語技術の両方を生み出した。 一方で、情報伝達や基本的な診断のための会話エージェントが広く使われており、おそらくパンデミック対策において重要な役割を担っている。 一方で、こうした技術がいくつかの言語で容易に利用可能であることは明らかであり、世界南部の大多数はこれらの利点を完全に享受している。 世界中の医療におけるLT、特に会話エージェントの状況はどうなっていますか? そして、次のパンデミックの前にLTの世界的な準備が整うには、何が必要だろうか? 本稿では,これらの質問に対して,既存の文献や資源の調査や,資源利用率の異なる15のアジア・アフリカの言語を対象としたチャットボット構築の迅速化を通じて回答する。 この研究は、SinhalaやHausaのような大きな話者ベースを持つ言語でさえLTの哀れな状態を確認し、LTにおける研究と投資戦略の優先順位付けに役立つギャップを特定する。

The COVID-19 pandemic has brought out both the best and worst of language technology (LT). On one hand, conversational agents for information dissemination and basic diagnosis have seen widespread use, and arguably, had an important role in combating the pandemic. On the other hand, it has also become clear that such technologies are readily available for a handful of languages, and the vast majority of the global south is completely bereft of these benefits. What is the state of LT, especially conversational agents, for healthcare across the world's languages? And, what would it take to ensure global readiness of LT before the next pandemic? In this paper, we try to answer these questions through survey of existing literature and resources, as well as through a rapid chatbot building exercise for 15 Asian and African languages with varying amount of resource-availabilit y. The study confirms the pitiful state of LT even for languages with large speaker bases, such as Sinhala and Hausa, and identifies the gaps that could help us prioritize research and investment strategies in LT for healthcare.
翻訳日:2022-04-07 19:45:20 公開日:2022-04-06
# (参考訳) BMD:ソースフリードメイン適応のための汎用クラスバランス多中心動的プロトタイプ戦略

BMD: A General Class-balanced Multicentric Dynamic Prototype Strategy for Source-free Domain Adaptation ( http://arxiv.org/abs/2204.02811v1 )

ライセンス: CC BY 4.0
Sanqing Qu, Guang Chen, Jing Zhang, Zhijun Li, Wei He, Dacheng Tao(参考訳) Source-free Domain Adaptation (SFDA)は、データプライバシ、セキュリティ、送信の問題により、より実用的な設定である、ラベルの付いたソースデータにアクセスすることなく、トレーニング済みのソースモデルを未ラベルのターゲットドメインに適応することを目的としている。 ソースデータの欠如を補うため、既存の手法の多くは、自己学習モデル適応を実現するために、機能プロトタイプベースの擬似ラベル戦略を導入した。 しかし、特徴のプロトタイプは、カテゴリバイアスがあり、ソースとターゲット間の視覚的ドメインギャップが通常、カテゴリ間で異なるため、ノイズの多いラベルをもたらす傾向がある、インスタンスレベルの予測に基づく特徴クラスタリングによって得られる。 さらに, 単一中心型特徴量プロトタイプは, 各カテゴリを表現し, 負の転送を導入するのに非効率であることがわかった。 これらの課題に対処するために,SFDA タスクのための一般クラスベース多中心型動的プロトタイプ (BMD) 戦略を提案する。 具体的には, 対象カテゴリーごとに, まず, 潜在対象サンプルを集約するために, グローバルクラス間バランスの取れたサンプリング戦略を導入する。 次に,より堅牢で代表的なプロトタイプ生成を実現するために,クラス内マルチセントリッククラスタリング戦略を設計する。 固定トレーニング期間中に擬似ラベルを更新する既存の戦略とは対照的に,モデル適応中にネットワーク更新情報を組み込む動的擬似ラベル戦略を導入する。 広範囲にわたる実験の結果,提案したモデル非依存型BMD戦略は, SHOTを82.9\%から85.8\%, VisDA-C, NRCを52.6\%から57.0\%に改善するなど, SFDA 法を改良することが示された。 コードはhttps://github.com/i spc-lab/bmdで入手できる。

Source-free Domain Adaptation (SFDA) aims to adapt a pre-trained source model to the unlabeled target domain without accessing the well-labeled source data, which is a much more practical setting due to the data privacy, security, and transmission issues. To make up for the absence of source data, most existing methods introduced feature prototype based pseudo-labeling strategies to realize self-training model adaptation. However, feature prototypes are obtained by instance-level predictions based feature clustering, which is category-biased and tends to result in noisy labels since the visual domain gaps between source and target are usually different between categories. In addition, we found that a monocentric feature prototype may be ineffective to represent each category and introduce negative transfer, especially for those hard-transfer data. To address these issues, we propose a general class-Balanced Multicentric Dynamic prototype (BMD) strategy for the SFDA task. Specifically, for each target category, we first introduce a global inter-class balanced sampling strategy to aggregate potential representative target samples. Then, we design an intra-class multicentric clustering strategy to achieve more robust and representative prototypes generation. In contrast to existing strategies that update the pseudo label at a fixed training period, we further introduce a dynamic pseudo labeling strategy to incorporate network update information during model adaptation. Extensive experiments show that the proposed model-agnostic BMD strategy significantly improves representative SFDA methods to yield new state-of-the-art results, e.g., improving SHOT from 82.9\% to 85.8\% on VisDA-C and NRC from 52.6\% to 57.0\% on PointDA. The code is available at https://github.com/i spc-lab/BMD.
翻訳日:2022-04-07 19:24:21 公開日:2022-04-06
# (参考訳) 学習と接地への代数的アプローチ [全文訳有]

An Algebraic Approach to Learning and Grounding ( http://arxiv.org/abs/2204.02813v1 )

ライセンス: CC BY-SA 4.0
Johanna Bj\"orklund, Adam Dahlgren Lindstr\"om, Frank Drewes(参考訳) 本稿では,複合代数表現の意味を例から学ぶ問題を考える。 入力は部分代数 A と有限個のサンプル集合 ({\phi}1, O1), ({\phi}2, O2), ... であり、それぞれ代数的項 {\phi}i と対象 Oi からなる。 目的は、a で欠けている代数演算を同時に満たし、oi 内のすべての {\phi}i の変数を接地することで、項の組合せ値を最適化することである。 本稿では,文法推論,画像言語学習,論理シーン記述の接地といったケーススタディを通して,このフレームワークの適用性を示す。

We consider the problem of learning the semantics of composite algebraic expressions from examples. The outcome is a versatile framework for studying learning tasks that can be put into the following abstract form: The input is a partial algebra A and a finite set of samples ({\phi}1, O1), ({\phi}2, O2), ..., each consisting of an algebraic term {\phi}i and a set of objects Oi. The objective is to simultaneously fill in the missing algebraic operations in A and ground the variables of every {\phi}i in Oi, so that the combined value of the terms is optimised. We demonstrate the applicability of this framework through case studies in grammatical inference, picture-language learning, and the grounding of logic scene descriptions.
翻訳日:2022-04-07 19:23:06 公開日:2022-04-06
# (参考訳) SemEval-2022 Task 2: BERTRAMを用いたイディオム表現の学習 [全文訳有]

drsphelps at SemEval-2022 Task 2: Learning idiom representations using BERTRAM ( http://arxiv.org/abs/2204.02821v1 )

ライセンス: CC BY 4.0
Dylan Phelps(参考訳) 本稿では,semval-2022タスク2の多言語的慣用性検出と文埋め込みのサブタスクbについて述べる。 この手法により,イディオム表現の質が向上し,タスクの性能が向上することを示す。 また、最終結果の分析を行い、生成したイディオムの埋め込みの品質が入力コンテキストの品質に非常に敏感であることを示す。

This paper describes our system for SemEval-2022 Task 2 Multilingual Idiomaticity Detection and Sentence Embedding sub-task B. We modify a standard BERT sentence transformer by adding embeddings for each idioms, which are created using BERTRAM and a small number of contexts. We show that this technique increases the quality of idiom representations and leads to better performance on the task. We also perform analysis on our final results and show that the quality of the produced idiom embeddings is highly sensitive to the quality of the input contexts.
翻訳日:2022-04-07 18:58:46 公開日:2022-04-06
# (参考訳) 意味画像合成のための検索に基づく空間適応正規化

Retrieval-based Spatially Adaptive Normalization for Semantic Image Synthesis ( http://arxiv.org/abs/2204.02854v1 )

ライセンス: CC BY 4.0
Yupeng Shi, Xiao Liu, Yuxiang Wei, Zhongqin Wu and Wangmeng Zuo(参考訳) セマンティック画像合成は多くの実用的な応用において難しい課題である。 空間適応正規化を用いたセマンティック画像合成や、粗いレベルのガイダンス(セマンティッククラスなど)の下で特徴の活性化を正規化する既存の手法は、目覚ましい進歩を遂げている。 しかし、セマンティックオブジェクトの異なる部分(例えば、車輪と車の窓)は構造やテクスチャにおいてかなり異なるため、細かいガイダンスが欠如しているため、ぼやけた合成結果は通常避けられない。 本稿では,Retrieval-based Spatially AdaptIve normalization (RESAIL) と呼ばれる新しい正規化モジュールを提案する。 具体的には、まず、各テストセマンティックマスクに最もよく似た形状のトレーニングセットから、同じセマンティッククラスのコンテンツパッチを見つけることで、検索パラダイムを提示する。 そして、取得したパッチを用いて対応する領域の特徴正規化を導出し、画素レベルのきめ細かいガイダンスを提供することにより、ぼやけた合成結果を大幅に軽減する。 また,特徴正規化のための検索に基づくガイダンスの代替として,変形した地対面画像が活用され,モデルのトレーニングや生成画像の視覚品質の向上が期待できる。 いくつかの挑戦的なデータセットにおける実験により、我々のリセイルは定量的指標、視覚的品質、主観的評価の点で最先端技術に対して有利に機能することが示された。 ソースコードと事前訓練されたモデルが公開される。

Semantic image synthesis is a challenging task with many practical applications. Albeit remarkable progress has been made in semantic image synthesis with spatially-adaptive normalization and existing methods normalize the feature activations under the coarse-level guidance (e.g., semantic class). However, different parts of a semantic object (e.g., wheel and window of car) are quite different in structures and textures, making blurry synthesis results usually inevitable due to the missing of fine-grained guidance. In this paper, we propose a novel normalization module, termed as REtrieval-based Spatially AdaptIve normaLization (RESAIL), for introducing pixel level fine-grained guidance to the normalization architecture. Specifically, we first present a retrieval paradigm by finding a content patch of the same semantic class from training set with the most similar shape to each test semantic mask. Then, RESAIL is presented to use the retrieved patch for guiding the feature normalization of corresponding region, and can provide pixel level fine-grained guidance, thereby greatly mitigating blurry synthesis results. Moreover, distorted ground-truth images are also utilized as alternatives of retrieval-based guidance for feature normalization, further benefiting model training and improving visual quality of generated images. Experiments on several challenging datasets show that our RESAIL performs favorably against state-of-the-arts in terms of quantitative metrics, visual quality, and subjective evaluation. The source code and pre-trained models will be publicly available.
翻訳日:2022-04-07 18:51:37 公開日:2022-04-06
# (参考訳) Imitate Immediately (DOME) : ワンショット模倣学習のためのビジュアルサーボ学習 [全文訳有]

Demonstrate Once, Imitate Immediately (DOME): Learning Visual Servoing for One-Shot Imitation Learning ( http://arxiv.org/abs/2204.02863v1 )

ライセンス: CC BY 4.0
Eugene Valassakis, Georgios Papagiannis, Norman Di Palo and Edward Johns(参考訳) DOMEは、単発の模倣学習のための新しい手法であり、ひとつの実演からタスクを学習し、さらにデータ収集やトレーニングをすることなく即座にデプロイすることができる。 domeは、事前のタスクやオブジェクトの知識を必要とせず、新しいオブジェクト設定や気晴らしでタスクを実行することができる。 中心となるDOMEは、画像条件付きオブジェクトセグメンテーションネットワークと学習されたビジュアルサーボネットワークを使用して、ロボットのエンドエフェクターをデモ中と同じ相対的なポーズに移動させ、その後、デモのエンドエフェクター速度を再生することでタスクを完了させる。 実世界の7つの日常的なタスクにおいて,DOMEが100%近い成功率を達成できることを示し,DOMEの各コンポーネントを徹底的に理解するために,いくつかの研究を行った。

We present DOME, a novel method for one-shot imitation learning, where a task can be learned from just a single demonstration and then be deployed immediately, without any further data collection or training. DOME does not require prior task or object knowledge, and can perform the task in novel object configurations and with distractors. At its core, DOME uses an image-conditioned object segmentation network followed by a learned visual servoing network, to move the robot's end-effector to the same relative pose to the object as during the demonstration, after which the task can be completed by replaying the demonstration's end-effector velocities. We show that DOME achieves near 100% success rate on 7 real-world everyday tasks, and we perform several studies to thoroughly understand each individual component of DOME.
翻訳日:2022-04-07 18:49:48 公開日:2022-04-06
# (参考訳) ECLIPSE:視線と音を用いた高能率長距離ビデオ検索 [全文訳有]

ECLIPSE: Efficient Long-range Video Retrieval using Sight and Sound ( http://arxiv.org/abs/2204.02874v1 )

ライセンス: CC BY 4.0
Yan-Bo Lin, Jie Lei, Mohit Bansal, Gedas Bertasius(参考訳) 長距離テキスト・ビデオ検索のためのオーディオビジュアル手法を提案する。 従来の短いビデオ検索(例えば5~15秒間)の手法とは異なり、本手法は複雑な人間の動作を捉えた分間のビデオの検索を目的としている。 標準的なビデオのみのアプローチの課題の1つは、このような長いビデオから数百の高密度に抽出されたフレームを処理することに伴う大きな計算コストである。 この問題に対処するため,我々は,動的オーディオイベントを簡潔に要約し,処理が容易なコンパクトなオーディオキューにビデオの一部を置き換える提案を行う。 ECLIPSE (Efficient CLIP with Sound Encoding) と名付けられたこの手法は,ビデオとオーディオストリームから補完的な手がかりをキャプチャする統合されたオーディオ視覚変換ブロックを追加することで,一般的なCLIPモデルをオーディオ映像設定に適応させる。 また,2.92倍高速で2.34倍のメモリ効率を実現するとともに,ActivityNet,QVHighl ights,YouCook2,DiDeM o,Charadesなど,様々な長距離ビデオデータセット上でのテキスト・ビデオ検索精度も向上した。

We introduce an audiovisual method for long-range text-to-video retrieval. Unlike previous approaches designed for short video retrieval (e.g., 5-15 seconds in duration), our approach aims to retrieve minute-long videos that capture complex human actions. One challenge of standard video-only approaches is the large computational cost associated with processing hundreds of densely extracted frames from such long videos. To address this issue, we propose to replace parts of the video with compact audio cues that succinctly summarize dynamic audio events and are cheap to process. Our method, named ECLIPSE (Efficient CLIP with Sound Encoding), adapts the popular CLIP model to an audiovisual video setting, by adding a unified audiovisual transformer block that captures complementary cues from the video and audio streams. In addition to being 2.92x faster and 2.34x memory-efficient than long-range video-only approaches, our method also achieves better text-to-video retrieval accuracy on several diverse long-range video datasets such as ActivityNet, QVHighlights, YouCook2, DiDeMo and Charades.
翻訳日:2022-04-07 18:35:16 公開日:2022-04-06
# (参考訳) 位相順序のパラメータ化局所探索による効率よいベイズネットワーク構造学習 [全文訳有]

Efficient Bayesian Network Structure Learning via Parameterized Local Search on Topological Orderings ( http://arxiv.org/abs/2204.02902v1 )

ライセンス: CC BY 4.0
Niels Gr\"uttemeier, Christian Komusiewicz, Nils Morawietz(参考訳) ベイズネットワーク構造学習(英: bayesian network structure learning、bnsl)では、各変数に対して変数セットと親スコアが与えられ、おそらくいくつかの構造制約の下で親スコアの和を最大化するベイズネットワーク(英: bayesian network)と呼ばれるdagの計算を目指している。 BNSLの非常に制限された特別な場合でさえ計算が困難であり、実際は局所探索のようなヒューリスティックな手法が用いられる。 局所探索アルゴリズムの自然なアプローチはヒルクライミング戦略であり、ある所与のBNSL解を、それが可能である限り、定義済みの近傍でより良い解に置き換えるものである。 本研究では,変数の位相的順序付けによって解を記述する順序に基づく局所探索について検討する。 このような位相的順序を与えられた場合、局所探索アルゴリズムの解の質と実行時間のバランスをとることができるパラメータ $r$ は、最小指数 fpt 時間で逆距離 $r$ 内にある最適な dag を計算することができる。 この実行時間制限は、構造的制約を伴わないbnslと、各親集合に関連付けられた重みの和によって表現できる全ての構造的制約に対して達成することができる。 また, 'window inversions distance' と呼ばれる関連する距離を導入し,パラメータ $r$ の副指数 fpt 時間で対応する局所探索問題も解くことができることを示した。 変数順序付けに関する2つの自然な修正操作に対して、FPT時間$r$のアルゴリズムは不可能であることを示す。 また,ネットワークのモラル化グラフにおける共通の構造制約には使用できないことを示すことにより,順序付けに基づく局所探索の限界を概説する。

In Bayesian Network Structure Learning (BNSL), one is given a variable set and parent scores for each variable and aims to compute a DAG, called Bayesian network, that maximizes the sum of parent scores, possibly under some structural constraints. Even very restricted special cases of BNSL are computationally hard, and, thus, in practice heuristics such as local search are used. A natural approach for a local search algorithm is a hill climbing strategy, where one replaces a given BNSL solution by a better solution within some pre-defined neighborhood as long as this is possible. We study ordering-based local search, where a solution is described via a topological ordering of the variables. We show that given such a topological ordering, one can compute an optimal DAG whose ordering is within inversion distance $r$ in subexponential FPT time; the parameter $r$ allows to balance between solution quality and running time of the local search algorithm. This running time bound can be achieved for BNSL without structural constraints and for all structural constraints that can be expressed via a sum of weights that are associated with each parent set. We also introduce a related distance called `window inversions distance' and show that the corresponding local search problem can also be solved in subexponential FPT time for the parameter $r$. For two further natural modification operations on the variable orderings, we show that algorithms with an FPT time for $r$ are unlikely. We also outline the limits of ordering-based local search by showing that it cannot be used for common structural constraints on the moralized graph of the network.
翻訳日:2022-04-07 18:15:39 公開日:2022-04-06
# (参考訳) EMMT:マルチモーダル読解・翻訳シナリオのための同時視線追跡、4電極脳波とオーディオコーパス [全文訳有]

EMMT: A simultaneous eye-tracking, 4-electrode EEG and audio corpus for multi-modal reading and translation scenarios ( http://arxiv.org/abs/2204.02905v1 )

ライセンス: CC BY 4.0
Sunit Bhattacharya, V\v{e}ra Kloudov\'a, Vil\'em Zouhar, Ond\v{r}ej Bojar(参考訳) 視線追跡多モード翻訳(EMMT)コーパス(Eyetracked Multi-Modal Translation, EMMT)コーパスは, 43人の眼球運動記録, 音声および4電極脳波データを含むデータセットである。 目的は、英語からチェコ語への翻訳の際に、さまざまなテキストイメージ刺激設定を含む言語集約的なタスクに携わる参加者の反応として認知信号を収集することであった。 各被験者は32のテキストイメージ刺激対に曝露し,(1)英語の文章を読み,(2)チェコ語に翻訳し,(3)イメージを相談し,(4)翻訳し,前の翻訳を更新または繰り返した。 テキスト刺激は200の独特な文からなり、616の独特な単語と200の独特な画像が視覚刺激として結合された。 録音は2週間にわたって収集され、調査に参加した参加者は全員、英語力の強いチェコ人であった。 研究に関わる課題の性質と、比較的多くの参加者が関与しているため、コーパスは翻訳過程研究、認知科学などの分野の研究に適している。

We present the Eyetracked Multi-Modal Translation (EMMT) corpus, a dataset containing monocular eye movement recordings, audio and 4-electrode electroencephalogram (EEG) data of 43 participants. The objective was to collect cognitive signals as responses of participants engaged in a number of language intensive tasks involving different text-image stimuli settings when translating from English to Czech. Each participant was exposed to 32 text-image stimuli pairs and asked to (1) read the English sentence, (2) translate it into Czech, (3) consult the image, (4) translate again, either updating or repeating the previous translation. The text stimuli consisted of 200 unique sentences with 616 unique words coupled with 200 unique images as the visual stimuli. The recordings were collected over a two week period and all the participants included in the study were Czech natives with strong English skills. Due to the nature of the tasks involved in the study and the relatively large number of participants involved, the corpus is well suited for research in Translation Process Studies, Cognitive Sciences among other disciplines.
翻訳日:2022-04-07 17:44:51 公開日:2022-04-06
# (参考訳) 次元と精度の低減による知識ベースインデックス圧縮 [全文訳有]

Knowledge Base Index Compression via Dimensionality and Precision Reduction ( http://arxiv.org/abs/2204.02906v1 )

ライセンス: CC BY 4.0
Vil\'em Zouhar, Marius Mosbach, Miaoran Zhang, Dietrich Klakow(参考訳) 近年,質問応答などの知識集約型NLPタスクに対するニューラルネットワークに基づくアプローチは,ニューラルレトリバーと読者の組み合わせに大きく依存するようになった。 検索は通常、大きなテキスト知識ベース(kb)上で行われ、大きなメモリと計算リソースを必要とする。 HotpotQAでは,次元差(乱射影,PCA,オートエンコーダ)と数値精度の低減によるKB指数の縮小を系統的に検討した。 以上の結果から,PCAは極めて少ないデータを必要とする簡単なソリューションであり,安定性の低いオートエンコーダよりもわずかに劣ることがわかった。 すべてのメソッドは前処理と後処理に敏感であり、データは次元の縮小前後で常に中心的かつ正規化されなければならない。 最後に,PCAを1次元あたり1ビットで組み合わせることが可能であることを示す。 全体としては, (1) 100$\times$ 圧縮が75%, (2) 24$\times$ 圧縮が92%のオリジナル検索性能で達成される。

Recently neural network based approaches to knowledge-intensive NLP tasks, such as question answering, started to rely heavily on the combination of neural retrievers and readers. Retrieval is typically performed over a large textual knowledge base (KB) which requires significant memory and compute resources, especially when scaled up. On HotpotQA we systematically investigate reducing the size of the KB index by means of dimensionality (sparse random projections, PCA, autoencoders) and numerical precision reduction. Our results show that PCA is an easy solution that requires very little data and is only slightly worse than autoencoders, which are less stable. All methods are sensitive to pre- and post-processing and data should always be centered and normalized both before and after dimension reduction. Finally, we show that it is possible to combine PCA with using 1bit per dimension. Overall we achieve (1) 100$\times$ compression with 75%, and (2) 24$\times$ compression with 92% original retrieval performance.
翻訳日:2022-04-07 17:36:50 公開日:2022-04-06
# (参考訳) 自己注意にもっと注意を払う:注意誘導による事前学習言語モデルの改善 [全文訳有]

Paying More Attention to Self-attention: Improving Pre-trained Language Models via Attention Guiding ( http://arxiv.org/abs/2204.02922v1 )

ライセンス: CC BY 4.0
Shanshan Wang, Zhumin Chen, Zhaochun Ren, Huasheng Liang, Qiang Yan, Pengjie Ren(参考訳) 事前学習された言語モデル(PLM)は、幅広い情報検索や自然言語処理タスクに有効であることを示した。 PLMの中核として、多頭自尊心は、異なる位置からの情報に共同で出席する能力に訴えている。 しかし、PLMは入力によらず常に固定された注意パターン(例えば、[CLS] や[SEP] に過度に注意を払うなど)を示しており、他の位置において重要な情報を無視する可能性がある。 本研究は,PLMの性能向上に資し,確立した目標への注意を喚起する,シンプルながら効果的な注意誘導機構を提案する。 具体的には,地図識別ガイド(MDG)と注意パターンデコリレーションガイド(PDG)の2種類の注意誘導手法を提案する。 前者は複数の自己意図的頭部間の多様性を、異なる表現部分空間からの情報に共同で参加するように、後者は可能な限り多くの異なる入力位置への自己意識を奨励する。 我々は3つのベンチマークデータセット(MultiNLI, MedNLI, Cross-genre-IR)上で、複数の事前訓練モデル(BERT, ALBERT, Roberta)とドメイン固有の事前訓練モデル(BioBERT, ClinicalBERT, BlueBert, SciBERT)を用いて実験を行った。 その結果,提案したMDGとPDGは,高効率かつ低コストで全データセットに安定した性能向上をもたらすことがわかった。

Pre-trained language models (PLM) have demonstrated their effectiveness for a broad range of information retrieval and natural language processing tasks. As the core part of PLM, multi-head self-attention is appealing for its ability to jointly attend to information from different positions. However, researchers have found that PLM always exhibits fixed attention patterns regardless of the input (e.g., excessively paying attention to [CLS] or [SEP]), which we argue might neglect important information in the other positions. In this work, we propose a simple yet effective attention guiding mechanism to improve the performance of PLM by encouraging attention towards the established goals. Specifically, we propose two kinds of attention guiding methods, i.e., map discrimination guiding (MDG) and attention pattern decorrelation guiding (PDG). The former definitely encourages the diversity among multiple self-attention heads to jointly attend to information from different representation subspaces, while the latter encourages self-attention to attend to as many different positions of the input as possible. We conduct experiments with multiple general pre-trained models (i.e., BERT, ALBERT, and Roberta) and domain-specific pre-trained models (i.e., BioBERT, ClinicalBERT, BlueBert, and SciBERT) on three benchmark datasets (i.e., MultiNLI, MedNLI, and Cross-genre-IR). Extensive experimental results demonstrate that our proposed MDG and PDG bring stable performance improvements on all datasets with high efficiency and low cost.
翻訳日:2022-04-07 17:20:30 公開日:2022-04-06
# (参考訳) ビームサーチ:より高速でモノトニック [全文訳有]

Beam Search: Faster and Monotonic ( http://arxiv.org/abs/2204.02929v1 )

ライセンス: CC BY 4.0
Sofia Lemons and Carlos Linares L\'opez and Robert C. Holte and Wheeler Ruml(参考訳) ビーム探索はヒューリスティックな探索問題に対する満足度の高いアプローチであり、ビーム幅パラメータを増大させることで計算時間の増加と解コストの低減を両立させることができる。 我々はビーム探索の研究に2つの貢献をしている。 まず,ビーム探索のモノトニック化について述べる。すなわち,ビーム幅が増大するにつれて非増加解コストが保証される新しい変種を提案する。 これによりビームパラメータの設定がずっと簡単になる。 第2に,非一様コストの領域において,ビーム探索がより高速に解を見つけることができることを示す。 これらの結果により,ビームサーチの有効性が向上した。

Beam search is a popular satisficing approach to heuristic search problems that allows one to trade increased computation time for lower solution cost by increasing the beam width parameter. We make two contributions to the study of beam search. First, we show how to make beam search monotonic; that is, we provide a new variant that guarantees non-increasing solution cost as the beam width is increased. This makes setting the beam parameter much easier. Second, we show how using distance-to-go estimates can allow beam search to find better solutions more quickly in domains with non-uniform costs. Together, these results improve the practical effectiveness of beam search.
翻訳日:2022-04-07 17:03:00 公開日:2022-04-06
# (参考訳) 終端から終端までの動作検出に関する実証的研究 [全文訳有]

An Empirical Study of End-to-End Temporal Action Detection ( http://arxiv.org/abs/2204.02932v1 )

ライセンス: CC BY 4.0
Xiaolong Liu, Song Bai, Xiang Bai(参考訳) 時間的行動検出(TAD)はビデオ理解において重要な課題である。 これは、未トリミングビデオ中のすべてのアクションインスタンスの意味ラベルと時間間隔を同時に予測することを目的としている。 エンド・ツー・エンドの学習よりも、既存のほとんどの手法では、ビデオエンコーダをアクション分類のために事前訓練し、エンコーダ上の検出ヘッドのみをTADに最適化するヘッドオンリーの学習パラダイムを採用している。 エンドツーエンド学習の効果は体系的に評価されない。 さらに、エンドツーエンドのtadにおける効率・正確性に関する詳細な研究が欠けている。 本稿では,エンド・ツー・エンドの時間的行動検出に関する実証的研究を行う。 ヘッドオンリー学習よりもエンド・ツー・エンド学習の利点を検証し,最大11対%のパフォーマンス改善を観察した。 さらに, 検出ヘッド, ビデオエンコーダ, インプットビデオの解像度など, TAD性能と速度に影響を与える複数の設計選択の影響について検討した。 この結果に基づき,4$\times以上を高速に動作しながら,エンドツーエンド手法の最先端性能を実現する中高分解能ベースライン検出器を構築した。 この論文が、エンド・ツー・エンドの学習のガイドとなり、この分野の今後の研究を刺激できることを願っている。 コードとモデルは \url{https://github.com/x lliu7/e2e-tad} で利用可能である。

Temporal action detection (TAD) is an important yet challenging task in video understanding. It aims to simultaneously predict the semantic label and the temporal interval of every action instance in an untrimmed video. Rather than end-to-end learning, most existing methods adopt a head-only learning paradigm, where the video encoder is pre-trained for action classification, and only the detection head upon the encoder is optimized for TAD. The effect of end-to-end learning is not systematically evaluated. Besides, there lacks an in-depth study on the efficiency-accuracy trade-off in end-to-end TAD. In this paper, we present an empirical study of end-to-end temporal action detection. We validate the advantage of end-to-end learning over head-only learning and observe up to 11\% performance improvement. Besides, we study the effects of multiple design choices that affect the TAD performance and speed, including detection head, video encoder, and resolution of input videos. Based on the findings, we build a mid-resolution baseline detector, which achieves the state-of-the-art performance of end-to-end methods while running more than 4$\times$ faster. We hope that this paper can serve as a guide for end-to-end learning and inspire future research in this field. Code and models are available at \url{https://github.com/x lliu7/E2E-TAD}.
翻訳日:2022-04-07 16:49:33 公開日:2022-04-06
# (参考訳) 形状情報学習による椎間板ラベリング : look once アプローチ [全文訳有]

Intervertebral Disc Labeling With Learning Shape Information, A Look Once Approach ( http://arxiv.org/abs/2204.02943v1 )

ライセンス: CC BY 4.0
Reza Azad, Moein Heidari, Julien Cohen-Adad, Ehsan Adeli, Dorit Merhof(参考訳) 医用画像からの椎間板の精度と自動分割は,椎間板症,椎間板骨折,椎間板ヘルニアなどの脊椎疾患の診断に重要な課題である。 これまで,ディスクの検出を主ステップとする文献に様々なアプローチが開発されてきた。 多くのコホート研究の欠点は、ローカライゼーションアルゴリズムが偽陽性検出をもたらすことである。 本研究では,新しいU-Net構造を提案し,椎間板位置の候補セットを予測することにより,この問題を軽減することを目的とする。 本設計では,画像形状情報(画像勾配)を統合し,リッチで汎用的な幾何学的情報を学ぶことを奨励する。 この追加信号は、文脈表現を選択的に強調し、差別的でない特徴を抑えるようモデルに誘導する。 処理後、偽陽性率をさらに下げるために、候補回復手順を加速する置換不変な'look once'モデルを提案する。 従来の研究と比較して,提案手法は反復的に選択を行う必要はない。 提案手法はspiner general public multi-center dataset上で評価され,従来よりも優れた性能を示した。 実装コードはhttps://github.com/r ezazad68/interverteb ral-lookonceで提供しました。

Accurate and automatic segmentation of intervertebral discs from medical images is a critical task for the assessment of spine-related diseases such as osteoporosis, vertebral fractures, and intervertebral disc herniation. To date, various approaches have been developed in the literature which routinely relies on detecting the discs as the primary step. A disadvantage of many cohort studies is that the localization algorithm also yields false-positive detections. In this study, we aim to alleviate this problem by proposing a novel U-Net-based structure to predict a set of candidates for intervertebral disc locations. In our design, we integrate the image shape information (image gradients) to encourage the model to learn rich and generic geometrical information. This additional signal guides the model to selectively emphasize the contextual representation and suppress the less discriminative features. On the post-processing side, to further decrease the false positive rate, we propose a permutation invariant 'look once' model, which accelerates the candidate recovery procedure. In comparison with previous studies, our proposed approach does not need to perform the selection in an iterative fashion. The proposed method was evaluated on the spine generic public multi-center dataset and demonstrated superior performance compared to previous work. We have provided the implementation code in https://github.com/r ezazad68/interverteb ral-lookonce
翻訳日:2022-04-07 16:33:29 公開日:2022-04-06
# (参考訳) 普遍確率計画における後進推論の保証境界 [全文訳有]

Guaranteed Bounds for Posterior Inference in Universal Probabilistic Programming ( http://arxiv.org/abs/2204.02948v1 )

ライセンス: CC BY 4.0
Raven Beutner, Luke Ong, Fabian Zaiser(参考訳) 本稿では,保証境界の計算により確率プログラムの後方分布を近似する新しい手法を提案する。 我々の研究の出発点は、連続分布を持つ再帰的で高階確率的プログラミング言語のための区間ベースのトレースセマンティクスである。 超加法(super-/subadditive) 測度の形をとると、これらの下/上限境界は非確率的かつ証明可能な正則である: 意味論を用いて、与えられたプログラムの実際の後端が下限と上限(音性)の間に挟まれていることを証明する。 実用的かつ健全な近似として,戻り値だけでなくプログラム実行の重みにも自動的に間隔境界を推定する重み対応区間型システムを導入する。 我々はGuBPIと呼ばれるツール実装を構築し、これらの後部下/上境界を自動的に計算する。 文献の例に対する評価から, 境界は有用であり, 確率的後進推定法からの誤った出力を認識するのにも利用できることがわかった。

We propose a new method to approximate the posterior distribution of probabilistic programs by means of computing guaranteed bounds. The starting point of our work is an interval-based trace semantics for a recursive, higher-order probabilistic programming language with continuous distributions. Taking the form of (super-/subadditive) measures, these lower/upper bounds are non-stochastic and provably correct: using the semantics, we prove that the actual posterior of a given program is sandwiched between the lower and upper bounds (soundness); moreover the bounds converge to the posterior (completeness). As a practical and sound approximation, we introduce a weight-aware interval type system, which automatically infers interval bounds on not just the return value but also weight of program executions, simultaneously. We have built a tool implementation, called GuBPI, which automatically computes these posterior lower/upper bounds. Our evaluation on examples from the literature shows that the bounds are useful, and can even be used to recognise wrong outputs from stochastic posterior inference procedures.
翻訳日:2022-04-07 16:23:36 公開日:2022-04-06
# (参考訳) LEAD:特徴類似度分布の調整による自己監督型ランドマーク推定 [全文訳有]

LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of Feature Similarity ( http://arxiv.org/abs/2204.02958v1 )

ライセンス: CC BY 4.0
Tejan Karmali, Abhinav Atrishi, Sai Sree Harsha, Susmit Agrawal, Varun Jampani, R. Venkatesh Babu(参考訳) 本研究では,未注釈のカテゴリ別画像からランドマークを発見する手法であるLEADを紹介する。 自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。 分類のようなインスタンスレベルのタスクにおける画像特徴の自己教師付き学習は進歩しているが、これらの手法は高密度な同変表現を保証するものではない。 等分散の性質は、ランドマーク推定のような密集した予測タスクにとって興味深い。 本研究では, 自己教師付き手法を用いて, 密同値表現の学習を強化する手法を提案する。 まず、インスタンスレベルで動作しているbyolの目的を使ってネットワークをトレーニングします。 このネットワークで得られた対応は、軽量ネットワークを用いて画像の高密度でコンパクトな表現を訓練するためにさらに使用される。 特徴抽出器にこのようなプリエントを持つことは,極めて限定的なアノテーション数の下でもランドマーク検出に有効であり,また,スケールのばらつきに対する一般化も改善することを示す。

In this work, we introduce LEAD, an approach to discover landmarks from an unannotated collection of category-specific images. Existing works in self-supervised landmark detection are based on learning dense (pixel-level) feature representations from an image, which are further used to learn landmarks in a semi-supervised manner. While there have been advances in self-supervised learning of image features for instance-level tasks like classification, these methods do not ensure dense equivariant representations. The property of equivariance is of interest for dense prediction tasks like landmark estimation. In this work, we introduce an approach to enhance the learning of dense equivariant representations in a self-supervised fashion. We follow a two-stage training approach: first, we train a network using the BYOL objective which operates at an instance level. The correspondences obtained through this network are further used to train a dense and compact representation of the image using a lightweight network. We show that having such a prior in the feature extractor helps in landmark detection, even under drastically limited number of annotations while also improving generalization across scale variations.
翻訳日:2022-04-07 15:48:15 公開日:2022-04-06
# チーフ:大規模ネットワークにおける高次モチーフによるクラスタリング

CHIEF: Clustering with Higher-order Motifs in Big Networks ( http://arxiv.org/abs/2204.02656v1 )

ライセンス: Link先を確認
Feng Xia, Shuo Yu, Chengfei Liu, Ivan Lee(参考訳) ネットワーク内の頂点のグループのクラスタリングは、ソーシャルコンピューティングやモノのインターネットなど、さまざまなドメインのアプリケーションを促進する。 しかし、スケールが大きくなるクラスタリングネットワークには課題が生じる。 本稿では,標準加速度法と近似加速度法という2つのモチーフクラスタリング技術からなる解を提案する。 どちらのアルゴリズムも、まずターゲットネットワーク内の最大kエッジ接続部分グラフを見つけ、ネットワークスケールを小さくし、クラスタリングに高次モチーフを用いる。 第1の手順では,ネットワーク構造を最大kエッジ接続部分グラフで最適化することにより,ネットワーク規模を小さくすることを提案する。 chief-st の場合、対象モチーフの最小ノード次数が k 以上であれば、この手順の後にすべての対象モチーフが保持されることを示す。 CHIEF-APの場合、隣接行列とラプラシア行列の固有値は、この段階以降比較的安定であることが証明される。 すなわち、CHIEF-STはモチーフクラスタリングに影響を与えないが、CHIEF-APは限定的かつ許容可能な影響をもたらす。 第2の手順では、高次密集ネットワークにおいて、高次モチーフ、すなわち不均質な4ノードモチーフをクラスタリングする。 CHIEFの貢献は,(1)大規模ネットワークにおけるモチーフクラスタリングの効率化,(2)高次モチーフの重要性の検証である。 提案手法は,大規模ネットワーク解析におけるチーフの強みを示す実ネットワークと合成ネットワークの実験により,ベースラインアプローチを上回った。 一方、高次モチーフはクラスタリングにおける従来の三角形モチーフよりも優れていることが証明されている。

Clustering a group of vertices in networks facilitates applications across different domains, such as social computing and Internet of Things. However, challenges arises for clustering networks with increased scale. This paper proposes a solution which consists of two motif clustering techniques: standard acceleration CHIEF-ST and approximate acceleration CHIEF-AP. Both algorithms first find the maximal k-edge-connected subgraphs within the target networks to lower the network scale, then employ higher-order motifs in clustering. In the first procedure, we propose to lower the network scale by optimizing the network structure with maximal k-edge-connected subgraphs. For CHIEF-ST, we illustrate that all target motifs will be kept after this procedure when the minimum node degree of the target motif is equal or greater than k. For CHIEF-AP, we prove that the eigenvalues of the adjacency matrix and the Laplacian matrix are relatively stable after this step. That is, CHIEF-ST has no influence on motif clustering, whereas CHIEF-AP introduces limited yet acceptable impact. In the second procedure, we employ higher-order motifs, i.e., heterogeneous four-node motifs clustering in higher-order dense networks. The contributions of CHIEF are two-fold: (1) improved efficiency of motif clustering for big networks; (2) verification of higher-order motif significance. The proposed solutions are found to outperform baseline approaches according to experiments on real and synthetic networks, which demonstrates CHIEF's strength in large network analysis. Meanwhile, higher-order motifs are proved to perform better than traditional triangle motifs in clustering.
翻訳日:2022-04-07 15:32:03 公開日:2022-04-06
# 次世代エネルギー管理システムにおける次元展開と伝達学習

Dimensionality Expansion and Transfer Learning for Next Generation Energy Management Systems ( http://arxiv.org/abs/2204.02802v1 )

ライセンス: Link先を確認
Bla\v{z} Bertalani\v{c}, Jakob Jenko and Carolina Fortuna(参考訳) 電気システム(EMS)は省エネにおいて中心的な役割を担っている。 一般家庭に配置し、家電を監視・管理し、住民のエネルギー効率を高め、経済性を高めることができる。 EMSの重要な機能のひとつは、負荷監視プロセスを通じて家庭内のアプライアンスを自動的に検出し、識別することである。 本稿では, EMS (BEMS) 構築のための新しい転写学習手法を提案し, 転送プロセス中にバックボーンモデルを適用する際に, サンプル数, ターゲットクラス数の観点からトレードオフについて検討する。 また、非侵入負荷監視(NILM)におけるデバイス分類のための時系列データの動画変換による特徴拡張の初回解析を行い、正確なアプライアンス同定を可能にするディープラーニングアーキテクチャを提案する。 提案手法は, 5種類の低周波データセットに対して相対的な性能を示し, 平均F1スコアが0.88であることを示す。

Electrical management systems (EMS) are playing a central role in enabling energy savings. They can be deployed within an everyday household where they monitor and manage appliances and help residents be more energy efficient and subsequently also more economical. One of they key functionalities of EMS is to automatically detect and identify appliances within a household through the process of load monitoring. In this paper, we propose a new transfer learning approach for building EMS (BEMS) and study the trade-offs in terms of numbers of samples and target classes in adapting a backbone model during the transfer process. We also perform a first time analysis of feature expansion through video-like transformation of time series data for device classification in non intrusive load monitoring (NILM) and propose a deep learning architecture enabling accurate appliance identification. We examine the relative performance of our method on 5 different representative low-frequency datasets and show that our method performs with an average F1 score of 0.88 on these datasets.
翻訳日:2022-04-07 15:31:34 公開日:2022-04-06
# AdaGrad ステップサイズをもつ非凸アルゴリズムの高確率境界

High Probability Bounds for a Class of Nonconvex Algorithms with AdaGrad Stepsize ( http://arxiv.org/abs/2204.02833v1 )

ライセンス: Link先を確認
Ali Kavis, Kfir Yehuda Levy, Volkan Cevher(参考訳) 本稿では,AdaGradのスムーズな非凸問題に対する簡易な高確率解析法を提案する。 より具体的には、AdaGradとその変種を平均化して復元し、滑らかさと分散の知識のない高い確率で$\mathcal O (1/ \sqrt{T})$の収束率を証明する、特定の加速勾配(AGD)テンプレート(Lan, 2020)に焦点を当てる。 我々は、マーチンゲール差分列(Kakade & Tewari, 2008)に有界なフリードマン濃度の特定のバージョンを使用し、確率マージン$\delta$で$\log (1 / \delta )$の最もよく知られた依存を達成できる。 我々はモジュラーな方法で解析を行い、決定論的設定における補的な$\mathcal O (1 / T)$収束率を得る。 私たちの知る限りでは、これは真に適応的なスキームを持つアダグラードにとって最初の高い確率結果であり、すなわち、滑らかさと均一な分散境界の知識に完全に従わず、同時に最もよく知られた$\log(1/\delta)$の依存を持つ。 さらに,アダグラードの雑音適応特性を付加雑音条件下で証明する。

In this paper, we propose a new, simplified high probability analysis of AdaGrad for smooth, non-convex problems. More specifically, we focus on a particular accelerated gradient (AGD) template (Lan, 2020), through which we recover the original AdaGrad and its variant with averaging, and prove a convergence rate of $\mathcal O (1/ \sqrt{T})$ with high probability without the knowledge of smoothness and variance. We use a particular version of Freedman's concentration bound for martingale difference sequences (Kakade & Tewari, 2008) which enables us to achieve the best-known dependence of $\log (1 / \delta )$ on the probability margin $\delta$. We present our analysis in a modular way and obtain a complementary $\mathcal O (1 / T)$ convergence rate in the deterministic setting. To the best of our knowledge, this is the first high probability result for AdaGrad with a truly adaptive scheme, i.e., completely oblivious to the knowledge of smoothness and uniform variance bound, which simultaneously has best-known dependence of $\log( 1/ \delta)$. We further prove noise adaptation property of AdaGrad under additional noise assumptions.
翻訳日:2022-04-07 15:31:18 公開日:2022-04-06
# 教師付き学習における公平性と説明可能性の結婚

Marrying Fairness and Explainability in Supervised Learning ( http://arxiv.org/abs/2204.02947v1 )

ライセンス: Link先を確認
Przemyslaw Grabowicz, Nicholas Perello, Aarshee Mishra(参考訳) 人間の意思決定を支援する機械学習アルゴリズムは、特定の保護されたグループに対して不注意に判別することができる。 我々は,保護属性の直接的因果効果として直接的差別を定式化し,保護属性に関連する非保護的特徴の因果影響の変化として誘導的差別を導出する。 限界直接効果(MDE)とSHAP(SHapley Additive ExPlanations)の測定により、最先端のフェアラーニング手法は、合成および実世界のデータセットにおける関連性や逆の識別を通じて、識別を誘導できることが明らかになった。 アルゴリズムシステムにおける識別を抑制するため,残りの特徴を保ちながら,保護属性がシステム出力に与える影響を無効にすることを提案する。 このような目的を達成する事後処理法を紹介・検討し, モデル精度が比較的高いこと, 直接的差別を防止し, 人口格差などの様々な格差対策を減少させることを見出した。

Machine learning algorithms that aid human decision-making may inadvertently discriminate against certain protected groups. We formalize direct discrimination as a direct causal effect of the protected attributes on the decisions, while induced discrimination as a change in the causal influence of non-protected features associated with the protected attributes. The measurements of marginal direct effect (MDE) and SHapley Additive exPlanations (SHAP) reveal that state-of-the-art fair learning methods can induce discrimination via association or reverse discrimination in synthetic and real-world datasets. To inhibit discrimination in algorithmic systems, we propose to nullify the influence of the protected attribute on the output of the system, while preserving the influence of remaining features. We introduce and study post-processing methods achieving such objectives, finding that they yield relatively high model accuracy, prevent direct discrimination, and diminishes various disparity measures, e.g., demographic disparity.
翻訳日:2022-04-07 15:30:56 公開日:2022-04-06
# 表情保存型顔フロントエンドは視覚支援音声処理を改善する

Expression-preservin g face frontalization improves visually assisted speech processing ( http://arxiv.org/abs/2204.02810v1 )

ライセンス: Link先を確認
Zhiqi Kang, Mostafa Sadeghi, Radu Horaud, Jacob Donley, Anurag Kumar and Xavier Alameda-Pineda(参考訳) 顔の正面化は、正面の面を任意に見る面から合成することからなる。 本論文の主な貢献は,視覚支援音声コミュニケーションの性能を高めるために,非剛性顔の変形を保存できるフロントカライズ手法である。 メソッドは、見積もりを交互に行う (i)−剛体変換(スケール、回転、および変換)及び (ii)~任意視面と顔モデルとの間の非剛性変形。 この手法には2つの重要な利点がある:データ中の非ガウス誤差に対処でき、動的顔変形モデルを含む。 そこで本研究では, 音声生成による頭部の剛性動きと顔の変形の両面を考慮し, 一般化された学生t分布と線形力学系を併用した。 本稿では,ゼロ平均正規化相互相関(ZNCC)スコアを用いて,表情の保存能力を評価することを提案する。 本手法は,従来の幾何学的モデルに基づく手法や深層学習に基づく手法と比較し,徹底的に評価する。 さらに,本手法を深層学習パイプライン,すなわち唇読解と音声強調に組み込むと,音声認識と音声の不信度スコアがかなりの差で向上することを示す。 補足材料はhttps://team.inria.f r/robotlearn/researc h/facefrontalization -benchmark/でアクセスできます。

Face frontalization consists of synthesizing a frontally-viewed face from an arbitrarily-viewed one. The main contribution of this paper is a frontalization methodology that preserves non-rigid facial deformations in order to boost the performance of visually assisted speech communication. The method alternates between the estimation of (i)~the rigid transformation (scale, rotation, and translation) and (ii)~the non-rigid deformation between an arbitrarily-viewed face and a face model. The method has two important merits: it can deal with non-Gaussian errors in the data and it incorporates a dynamical face deformation model. For that purpose, we use the generalized Student t-distribution in combination with a linear dynamic system in order to account for both rigid head motions and time-varying facial deformations caused by speech production. We propose to use the zero-mean normalized cross-correlation (ZNCC) score to evaluate the ability of the method to preserve facial expressions. The method is thoroughly evaluated and compared with several state of the art methods, either based on traditional geometric models or on deep learning. Moreover, we show that the method, when incorporated into deep learning pipelines, namely lip reading and speech enhancement, improves word recognition and speech intelligibilty scores by a considerable margin. Supplemental material is accessible at https://team.inria.f r/robotlearn/researc h/facefrontalization -benchmark/
翻訳日:2022-04-07 15:30:40 公開日:2022-04-06
# 行動ビデオ分析のためのオープンソースツール:セットアップ、方法、開発

Open-Source Tools for Behavioral Video Analysis: Setup, Methods, and Development ( http://arxiv.org/abs/2204.02842v1 )

ライセンス: Link先を確認
Kevin Luxem, Jennifer J. Sun, Sean P. Bradley, Keerthi Krishnan, Talmo D. Pereira, Eric A. Yttri, Jan Zimmermann, and Mark Laubach(参考訳) 近年,映像分析,特にポーズ推定と行動分類のモデルが,行動定量化をより正確で,スケーラブルで,神経科学や倫理学などの分野で再現可能なものにしている。 これらのツールは、ビデオフレームの手動スコアリングと従来の「質量の中心」追跡アルゴリズムの長期的制限を克服し、大規模なビデオ分析を可能にする。 動画の取得と分析のためのオープンソースツールの拡張は、行動を理解するための新しい実験的なアプローチをもたらした。 ここでは、現在利用可能なビデオ分析用のオープンソースツール、ビデオ録画方法に新しくなったラボにそれらを設定する方法、開発者や先進的なユーザによって対処されるべき問題、オープンなデータセットとコード共有の必要性、アルゴリズムとパラメータの比較方法、ドキュメントとコミュニティ全体の標準の必要性などについてレビューする。 より広く利用し、ツールの開発を継続したいと思っています。 脳と行動を理解するための科学的進歩を加速させる大きな可能性を秘めている。

Recently developed methods for video analysis, especially models for pose estimation and behavior classification, are transforming behavioral quantification to be more precise, scalable, and reproducible in fields such as neuroscience and ethology. These tools overcome long-standing limitations of manual scoring of video frames and traditional "center of mass" tracking algorithms to enable video analysis at scale. The expansion of open-source tools for video acquisition and analysis has led to new experimental approaches to understand behavior. Here, we review currently available open source tools for video analysis, how to set them up in a lab that is new to video recording methods, and some issues that should be addressed by developers and advanced users, including the need to openly share datasets and code, how to compare algorithms and their parameters, and the need for documentation and community-wide standards. We hope to encourage more widespread use and continued development of the tools. They have tremendous potential for accelerating scientific progress for understanding the brain and behavior.
翻訳日:2022-04-07 15:27:52 公開日:2022-04-06
# 非線形勾配写像と確率最適化--重み付き雑音への適用をめざして

Nonlinear gradient mappings and stochastic optimization: A general framework with applications to heavy-tail noise ( http://arxiv.org/abs/2204.02593v1 )

ライセンス: Link先を確認
Dusan Jakovetic, Dragana Bajovic, Anit Kumar Sahu, Soummya Kar, Nemanja Milosevic, Dusan Stamenkovic(参考訳) 本稿では, 非線形確率勾配降下法(SGD)を, 勾配雑音が重みを呈するシナリオに適用する。 提案手法は, クリッピング, 正規化, 符号付け, 量子化勾配などの一般的な非線形性選択を仮定するが, 新たな非線形性選択も検討する。 本研究では,リプシッツ連続勾配を持つ強凸コスト関数を,勾配雑音の一般仮定下で仮定した強収束保証を定式化する。 最も注目すべきは、有界な出力を持つ非線形性と、有限次モーメントを持たない勾配雑音に対して、非線形 sgd 平均二乗誤差 (mse) あるいは、期待コスト関数の最適性ギャップ (optimizeity gap) が −$o(1/t^\zeta)$,$\zeta \in (0,1)$ でゼロに収束することである。 対照的に、同じ雑音設定の場合、線形SGDは非有界なばらつきのシーケンスを生成する。 さらに、例えば、符号勾配や成分ワイドクリッピングのように、成分を分解できる非線形性については、非線形SGDが弱収束感覚において漸近的に(局所的に)$O(1/t)のレートを達成し、対応する漸近分散を明示的に定量化することを示す。 実験により, 提案手法は, 重音下のsgdの既存研究よりも汎用性が高いが, 重音の実データ集合では, 実装が容易な非線形性と競合することがわかった。

We introduce a general framework for nonlinear stochastic gradient descent (SGD) for the scenarios when gradient noise exhibits heavy tails. The proposed framework subsumes several popular nonlinearity choices, like clipped, normalized, signed or quantized gradient, but we also consider novel nonlinearity choices. We establish for the considered class of methods strong convergence guarantees assuming a strongly convex cost function with Lipschitz continuous gradients under very general assumptions on the gradient noise. Most notably, we show that, for a nonlinearity with bounded outputs and for the gradient noise that may not have finite moments of order greater than one, the nonlinear SGD's mean squared error (MSE), or equivalently, the expected cost function's optimality gap, converges to zero at rate~$O(1/t^\zeta)$, $\zeta \in (0,1)$. In contrast, for the same noise setting, the linear SGD generates a sequence with unbounded variances. Furthermore, for the nonlinearities that can be decoupled component wise, like, e.g., sign gradient or component-wise clipping, we show that the nonlinear SGD asymptotically (locally) achieves a $O(1/t)$ rate in the weak convergence sense and explicitly quantify the corresponding asymptotic variance. Experiments show that, while our framework is more general than existing studies of SGD under heavy-tail noise, several easy-to-implement nonlinearities from our framework are competitive with state of the art alternatives on real data sets with heavy tail noises.
翻訳日:2022-04-07 15:26:25 公開日:2022-04-06
# 補聴器用オンラインニューラルネット支援デバーバレーションのカスタマイズ可能なエンドツーエンド最適化

Customizable End-to-end Optimization of Online Neural Network-supported Dereverberation for Hearing Devices ( http://arxiv.org/abs/2204.02694v1 )

ライセンス: Link先を確認
Jean-Marie Lemercier, Joachim Thiemann, Raphael Koning and Timo Gerkmann(参考訳) 本研究は,重み付き予測誤差(WPE)アルゴリズムを用いた補聴器のオンライン残響に着目した。 WPEフィルタリングでは、ターゲット音声パワースペクトル密度(PSD)を推定する必要がある。 近年,このタスクにはディープニューラルネットワーク(DNN)が使用されている。 しかし、これらのアプローチは、間接的にwpe出力にのみ影響するpsd推定を最適化するので、潜在的に収差が限定される。 本稿では,遅延出力信号を直接最適化するオンライン処理に特化したエンド・ツー・エンド方式を提案する。 さらに,学習に使用するWPEアルゴリズムの特徴だけでなく,最適化対象を変更することで,様々なタイプの補聴器利用者のニーズに適応することを提案する。 提案手法は,WHAMRデータセットのノイズフリーバージョンにおいて,従来のDNN対応のWPEよりも優れていることを示す。

This work focuses on online dereverberation for hearing devices using the weighted prediction error (WPE) algorithm. WPE filtering requires an estimate of the target speech power spectral density (PSD). Recently deep neural networks (DNNs) have been used for this task. However, these approaches optimize the PSD estimate which only indirectly affects the WPE output, thus potentially resulting in limited dereverberation. In this paper, we propose an end-to-end approach specialized for online processing, that directly optimizes the dereverberated output signal. In addition, we propose to adapt it to the needs of different types of hearing-device users by modifying the optimization target as well as the WPE algorithm characteristics used in training. We show that the proposed end-to-end approach outperforms the traditional and conventional DNN-supported WPEs on a noise-free version of the WHAMR! dataset.
翻訳日:2022-04-07 15:25:56 公開日:2022-04-06
# 雑音残響環境におけるロバストオンライン音声認識のためのニューラルネットワーク強化カルマンフィルタ

Neural Network-augmented Kalman Filtering for Robust Online Speech Dereverberation in Noisy Reverberant Environments ( http://arxiv.org/abs/2204.02741v1 )

ライセンス: Link先を確認
Jean-Marie Lemercier, Joachim Thiemann, Raphael Koning, Timo Gerkmann(参考訳) 本稿では,重み付き予測誤差法(WPE)のカルマンフィルタ変種を用いたノイズローバストオンラインデバーベレーションのためのニューラルネットワーク拡張アルゴリズムを提案する。 フィルタ残差誤差と信号特性を用いて、ディープニューラルネットワーク(DNN)により、フィルタ確率変動を予測する。 提案したフレームワークは、WHAMRと同様の単一チャネルノイズの残響データセット上で、堅牢な残響を可能にする。 . カルマンフィルタWPEは、目標音声パワースペクトル密度が完全には分かっておらず、観測がノイズである場合にのみ、残差からフィルタ変動を予測する際に、強調信号の歪みを導入する。 提案手法は,データ駆動によるフィルタ変動推定を補正し,提案手法のロバスト性を高めることにより,これらの歪みを回避する。 さらに、特にノイズの多い入力に対して、DNNでサポートされたWPEの最小二乗変法と比較すると、強い収差とノイズ発生性能が得られる。

In this paper, a neural network-augmented algorithm for noise-robust online dereverberation with a Kalman filtering variant of the weighted prediction error (WPE) method is proposed. The filter stochastic variations are predicted by a deep neural network (DNN) trained end-to-end using the filter residual error and signal characteristics. The presented framework allows for robust dereverberation on a single-channel noisy reverberant dataset similar to WHAMR!. The Kalman filtering WPE introduces distortions in the enhanced signal when predicting the filter variations from the residual error only, if the target speech power spectral density is not perfectly known and the observation is noisy. The proposed approach avoids these distortions by correcting the filter variations estimation in a data-driven way, increasing the robustness of the method to noisy scenarios. Furthermore, it yields a strong dereverberation and denoising performance compared to a DNN-supported recursive least squares variant of WPE, especially for highly noisy inputs.
翻訳日:2022-04-07 15:25:43 公開日:2022-04-06
# Federated Self-supervised Speech Representations: We Are There there?

Federated Self-supervised Speech Representations: Are We There Yet? ( http://arxiv.org/abs/2204.02804v1 )

ライセンス: Link先を確認
Yan Gao, Javier Fernandez-Marques, Titouan Parcollet, Abhinav Mehrotra, Nicholas D. Lane(参考訳) マイク対応デバイスの普及により、エッジで大量のラベルなしオーディオデータが生成される。 自己教師付き学習(SSL)とフェデレーション付き学習(FL)を1つのコヒーレントシステムに統合することで、データのプライバシーを保証すると同時に、音声表現の品質と堅牢性も向上する可能性がある。 本稿では,アルゴリズム,ハードウェア,システム限界の観点から,flシナリオ下での音声sslモデルの学習における実現可能性と複雑さについて体系的に検討する。 その組み合わせの可能性が高いにもかかわらず、既存のシステムの制約やアルゴリズム的な振る舞いにより、SSLとFLシステムの構築はほぼ不可能である。 しかし,本研究の結果は,特定のパフォーマンスボトルネックと,この状況の逆転を可能にする研究機会を示している。 我々の分析によると、ハードウェアの既存のトレンドを考えると、SSLとFLのハイブリッド音声システムは2027年まで使えなくなる。 この研究は、このマイルストーンをずっと早く達成するための作業を加速するためのロードマップとして機能すると思います。

The ubiquity of microphone-enabled devices has lead to large amounts of unlabelled audio data being produced at the edge. The integration of self-supervised learning (SSL) and federated learning (FL) into one coherent system can potentially offer data privacy guarantees while also advancing the quality and robustness of speech representations. In this paper, we provide a first-of-its-kind systematic study of the feasibility and complexities for training speech SSL models under FL scenarios from the perspective of algorithms, hardware, and systems limits. Despite the high potential of their combination, we find existing system constraints and algorithmic behaviour make SSL and FL systems nearly impossible to build today. Yet critically, our results indicate specific performance bottlenecks and research opportunities that would allow this situation to be reversed. While our analysis suggests that, given existing trends in hardware, hybrid SSL and FL speech systems will not be viable until 2027. We believe this study can act as a roadmap to accelerate work towards reaching this milestone much earlier.
翻訳日:2022-04-07 15:24:36 公開日:2022-04-06
# (参考訳) SMU-Net: 欠損を有する脳腫瘍セグメント化のためのスタイルマッチングU-Net [全文訳有]

SMU-Net: Style matching U-Net for brain tumor segmentation with missing modalities ( http://arxiv.org/abs/2204.02961v1 )

ライセンス: CC BY 4.0
Reza Azad, Nika Khosravi, Dorit Merhof(参考訳) グリオーマは最も一般的な一次脳腫瘍の1つであり、全症例の30%以上を占め、グリア幹細胞または前駆細胞から発達する。 理論的には、ほとんどの脳腫瘍はMRI(Magnetic Resonance Imaging)によって特定できる。 それぞれのmriモダリティは、人間の脳の軟部組織に関する異なる情報を提供し、それらをすべて統合することで、患者の予後、診断、最適なフォローアップ治療の決定に不可欠なグリオーマの正確な分割のための包括的なデータを提供する。 残念なことに、MRIは様々な理由でアーティファクトに傾向があり、1つ以上のMRIモダリティが欠落する可能性がある。 欠落したモダリティを合成したり、自動セグメンテーションモデルへの影響を補うための様々な戦略が長年提案されてきた。 しかし、これらの手法は通常、欠落した情報をモデル化することができない。 本稿では,MRI画像における脳腫瘍分割のためのスタイルマッチングU-Netを提案する。 共学習アプローチでは,コンテンツとスタイルマッチング機構を用いて,完全モダリティネットワークから欠落モダリティネットワークへの情報的特徴の抽出を行う。 そこで本研究では,完全なモダリティと欠落したモダリティの両方を潜在空間にエンコードし,表現空間をスタイルとコンテンツ表現に分解する。 スタイルマッチングモジュールは,完全なモダリティパスから欠落モダリティパスへ情報的およびテクスチャ的特徴を伝達するマッチング関数を学習することにより,表現空間を適応的に再調整する。 さらに, 相互情報をモデル化することにより, コンテンツモジュールは情報量が少なくなり, 識別的意味的特徴に基づく表現空間を再調整する。 BraTS 2018データセットの評価プロセスは、大きな結果を示している。

Gliomas are one of the most prevalent types of primary brain tumours, accounting for more than 30\% of all cases and they develop from the glial stem or progenitor cells. In theory, the majority of brain tumours could well be identified exclusively by the use of Magnetic Resonance Imaging (MRI). Each MRI modality delivers distinct information on the soft tissue of the human brain and integrating all of them would provide comprehensive data for the accurate segmentation of the glioma, which is crucial for the patient's prognosis, diagnosis, and determining the best follow-up treatment. Unfortunately, MRI is prone to artifacts for a variety of reasons, which might result in missing one or more MRI modalities. Various strategies have been proposed over the years to synthesize the missing modality or compensate for the influence it has on automated segmentation models. However, these methods usually fail to model the underlying missing information. In this paper, we propose a style matching U-Net (SMU-Net) for brain tumour segmentation on MRI images. Our co-training approach utilizes a content and style-matching mechanism to distill the informative features from the full-modality network into a missing modality network. To do so, we encode both full-modality and missing-modality data into a latent space, then we decompose the representation space into a style and content representation. Our style matching module adaptively recalibrates the representation space by learning a matching function to transfer the informative and textural features from a full-modality path into a missing-modality path. Moreover, by modelling the mutual information, our content module surpasses the less informative features and re-calibrates the representation space based on discriminative semantic features. The evaluation process on the BraTS 2018 dataset shows a significant results.
翻訳日:2022-04-07 15:23:10 公開日:2022-04-06
# S-R2F2U-Net:歯のセグメンテーションのための単一段階モデル

S-R2F2U-Net: A single-stage model for teeth segmentation ( http://arxiv.org/abs/2204.02939v1 )

ライセンス: Link先を確認
Mrinal Kanti Dhar and Zeyun Yu(参考訳) 歯科矯正治療, 臨床診断, 外科治療の位置情報を提供するため, 口腔領域では精密歯列分割が重要である。 本論文では,パノラマ歯科画像から歯のセグメント化に対する残存・再帰・注意ネットワークについて検討する。 本稿では,S-R2F2U-Net,S-R2F2U -Net,S-R2F2U-Net,S-R 2F2-Attn-U-Netの3つの単一ステージモデルを提案する。 特にS-R2F2U-Netは、精度とダイススコアの点で最先端モデルを上回っている。 クロスエントロピー損失とサイス損失を組み合わせたハイブリッド損失関数を用いてモデルを訓練する。 さらに、R2U-Netモデルと比較して、モデルのパラメータの約45%を削減します。 モデルは、1500の歯科用パノラマx線画像を含むベンチマークデータセットで訓練され、評価される。 S-R2F2U-Netは97.31%の精度と93.26%のダイススコアを獲得し、最先端の手法よりも優れていた。 コードはhttps://github.com/m rinal054/teethseg_sr 2f2u-net.gitで入手できる。

Precision tooth segmentation is crucial in the oral sector because it provides location information for orthodontic therapy, clinical diagnosis, and surgical treatments. In this paper, we investigate residual, recurrent, and attention networks to segment teeth from panoramic dental images. Based on our findings, we suggest three single-stage models: Single Recurrent R2U-Net (S-R2U-Net), Single Recurrent Filter Double R2U-Net (S-R2F2U-Net), and Single Recurrent Attention Enabled Filter Double (S-R2F2-Attn-U-Net). Particularly, S-R2F2U-Net outperforms state-of-the-art models in terms of accuracy and dice score. A hybrid loss function combining the cross-entropy loss and dice loss is used to train the model. In addition, it reduces around 45% of model parameters compared to the R2U-Net model. Models are trained and evaluated on a benchmark dataset containing 1500 dental panoramic X-ray images. S-R2F2U-Net achieves 97.31% of accuracy and 93.26% of dice score, showing superiority over the state-of-the-art methods. Codes are available at https://github.com/m rinal054/teethSeg_sr 2f2u-net.git.
翻訳日:2022-04-07 15:04:45 公開日:2022-04-06
# 「ランプポストの隣の歩行者」適応オブジェクトグラフによる瞬時マッピングの改善

"The Pedestrian next to the Lamppost" Adaptive Object Graphs for Better Instantaneous Mapping ( http://arxiv.org/abs/2204.02944v1 )

ライセンス: Link先を確認
Avishkar Saha, Oscar Mendez, Chris Russell, Richard Bowden(参考訳) 1つの画像から意味的に区切られた鳥眼ビュー(BEV)マップを推定することは、自律的な制御とナビゲーションの一般的な技術となった。 しかし,カメラからの距離によって位置推定誤差が増大している。 ローカライゼーションは距離が難しい - パフォーマンスの低下の多くは、現在のテクスチャベースのモデルで使用されている手掛かりによるもので、特に、遠方のオブジェクトではますます希薄で不確実になる、オブジェクトと地面の交差点(影など)を多用している。 本研究では,シーン内の物体間の空間的関係を学習することで,BEVマッピングにおけるこれらの欠点に対処する。 本稿では,他の物体のコンテキスト内の物体を空間的に推論することにより,単眼画像からbev物体を予測するグラフニューラルネットワークを提案する。 提案手法では,3つの大規模データセットにわたる単眼画像からのbev推定において,50%の相対的改善を含む,新たな最先端のbev推定を行う。

Estimating a semantically segmented bird's-eye-view (BEV) map from a single image has become a popular technique for autonomous control and navigation. However, they show an increase in localization error with distance from the camera. While such an increase in error is entirely expected - localization is harder at distance - much of the drop in performance can be attributed to the cues used by current texture-based models, in particular, they make heavy use of object-ground intersections (such as shadows), which become increasingly sparse and uncertain for distant objects. In this work, we address these shortcomings in BEV-mapping by learning the spatial relationship between objects in a scene. We propose a graph neural network which predicts BEV objects from a monocular image by spatially reasoning about an object within the context of other objects. Our approach sets a new state-of-the-art in BEV estimation from monocular images across three large-scale datasets, including a 50% relative improvement for objects on nuScenes.
翻訳日:2022-04-07 15:04:16 公開日:2022-04-06
# 関係性に基づく時間的整合性による映像復調

Video Demoireing with Relation-Based Temporal Consistency ( http://arxiv.org/abs/2204.02957v1 )

ライセンス: Link先を確認
Peng Dai, Xin Yu, Lan Ma, Baoheng Zhang, Jia Li, Wenbo Li, Jiajun Shen, Xiaojuan Qi(参考訳) カラー歪みとして現れるモアレパターンは、デジタルカメラでスクリーンを撮影する際、画像や映像の品質を著しく低下させる。 ビデオ撮影の需要が増大する中、ビデオに望ましくないモアレパターンを除去する方法、すなわちビデオの削除について検討する。 そこで本研究では,手持ちビデオ復調データセットを専用のデータ収集パイプラインで導入し,撮影データの空間的・時間的アライメントを確保する。 さらに、暗黙的特徴空間アライメントと選択的特徴集約を備えたベースライン映像復調モデルを開発し、近傍フレームからの補完情報を活用してフレームレベルの映像復調を改善する。 さらに,時間的一貫性の予測を容易にし,フレームレベルの品質を効果的に保ちながら,時間的一貫性をモデルが直接学習することを促すために,関係に基づく時間的一貫性の損失を提案する。 大規模な実験は、我々のモデルの優越性を示す。 コードは \url{https://daipengwa.gi thub.io/vdmoire_proj ectpage/} で入手できる。

Moire patterns, appearing as color distortions, severely degrade image and video qualities when filming a screen with digital cameras. Considering the increasing demands for capturing videos, we study how to remove such undesirable moire patterns in videos, namely video demoireing. To this end, we introduce the first hand-held video demoireing dataset with a dedicated data collection pipeline to ensure spatial and temporal alignments of captured data. Further, a baseline video demoireing model with implicit feature space alignment and selective feature aggregation is developed to leverage complementary information from nearby frames to improve frame-level video demoireing. More importantly, we propose a relation-based temporal consistency loss to encourage the model to learn temporal consistency priors directly from ground-truth reference videos, which facilitates producing temporally consistent predictions and effectively maintains frame-level qualities. Extensive experiments manifest the superiority of our model. Code is available at \url{https://daipengwa.gi thub.io/VDmoire_Proj ectPage/}.
翻訳日:2022-04-07 15:03:56 公開日:2022-04-06
# マスキング画像モデルを用いた物体検出用バニラビジョントランス

Unleashing Vanilla Vision Transformer with Masked Image Modeling for Object Detection ( http://arxiv.org/abs/2204.02964v1 )

ライセンス: Link先を確認
Yuxin Fang, Shusheng Yang, Shijie Wang, Yixiao Ge, Ying Shan, Xinggang Wang(参考訳) 本稿では,物体検出のためのマスク付き画像モデリング(MIM)プリトレーニングバニラビジョントランス (ViT) を効果的かつ効果的に適用するアプローチを提案する。 (i)MIM事前訓練されたバニラViTは、ランダムなサンプル部分観察(例えば入力シーケンスの25%~50%)であっても、難しいオブジェクトレベルの認識シナリオで驚くほどうまく機能する。 (II) オブジェクト検出のためのマルチスケール表現を構築するために、ランダム初期化コンパクトな畳み込みステムは、事前訓練された大きなカーネルパッチ化ステムを置換し、その中間機能は、アップサンプリングなしで特徴ピラミッドの高分解能入力として自然に機能する。 事前訓練されたViTは、特徴抽出器全体ではなく、検出器のバックボーンの第3段階と見なされているため、ConvNet-ViTハイブリッドアーキテクチャとなる。 提案した検出器はMIMDetと呼ばれ、MIM事前訓練されたバニラViTは、COCO上の2.3ボックスAPと2.5マスクAPで階層的なスウィントランスフォーマーを上回り、より控えめな微調整レシピを使用して2.8倍の速度で収束する。 コードと事前訓練されたモデルは、 \url{https://github.com/h ustvl/MIMDet} で入手できる。

We present an approach to efficiently and effectively adapt a masked image modeling (MIM) pre-trained vanilla Vision Transformer (ViT) for object detection, which is based on our two novel observations: (i) A MIM pre-trained vanilla ViT can work surprisingly well in the challenging object-level recognition scenario even with random sampled partial observations, e.g., only 25% ~ 50% of the input sequence. (ii) In order to construct multi-scale representations for object detection, a random initialized compact convolutional stem supplants the pre-trained large kernel patchify stem, and its intermediate features can naturally serve as the higher resolution inputs of a feature pyramid without upsampling. While the pre-trained ViT is only regarded as the third-stage of our detector's backbone instead of the whole feature extractor, resulting in a ConvNet-ViT hybrid architecture. The proposed detector, named MIMDet, enables a MIM pre-trained vanilla ViT to outperform hierarchical Swin Transformer by 2.3 box AP and 2.5 mask AP on COCO, and achieve even better results compared with other adapted vanilla ViT using a more modest fine-tuning recipe while converging 2.8x faster. Code and pre-trained models are available at \url{https://github.com/h ustvl/MIMDet}.
翻訳日:2022-04-07 15:03:40 公開日:2022-04-06
# 長期ビデオのための時間アライメントネットワーク

Temporal Alignment Networks for Long-term Video ( http://arxiv.org/abs/2204.02968v1 )

ライセンス: Link先を確認
Tengda Han, Weidi Xie, Andrew Zisserman(参考訳) 本研究の目的は,(1)文が映像と整合可能かどうかを判断し,(2)適合可能かどうかを判断し,その系列を決定するために,長期映像系列と関連するテキスト文を取り込む時間的アライメントネットワークである。 問題なのは、howto100mのような大規模データセットからそのようなネットワークをトレーニングすることだ。 アライメントネットワークの提案とは別に,4つのコントリビューションも行っています。 i) かなりのノイズにもかかわらず手動のアノテーションを使わずに生のビデオの発音と訓練を可能にする新しい協調学習手法について述べる。 (i)アライメント性能のベンチマークを行うため,ハウト100Mの10時間サブセットを手作業でキュレートし,80本のビデオと短い時間的記述を行った。 提案モデルでは,HowTo100Mに基づいてトレーニングし,このアライメントデータセット上で強いベースライン(CLIP, MIL-NCE)をかなりのマージンで上回っている。 3) 訓練されたモデルをゼロショット設定に適用し、複数の下流映像理解タスクに適用し、YouCook2のテキストビデオ検索やBreakfast-Actionの弱教師付きビデオアクションセグメンテーションを含む最先端の成果を得る。 (iv) バックボーンモデルのエンド・ツー・エンドの微調整に自動整列するHowTo100Mアノテーションを使用し、下流動作認識タスクの性能向上を図る。

The objective of this paper is a temporal alignment network that ingests long term video sequences, and associated text sentences, in order to: (1) determine if a sentence is alignable with the video; and (2) if it is alignable, then determine its alignment. The challenge is to train such networks from large-scale datasets, such as HowTo100M, where the associated text sentences have significant noise, and are only weakly aligned when relevant. Apart from proposing the alignment network, we also make four contributions: (i) we describe a novel co-training method that enables to denoise and train on raw instructional videos without using manual annotation, despite the considerable noise; (ii) to benchmark the alignment performance, we manually curate a 10-hour subset of HowTo100M, totalling 80 videos, with sparse temporal descriptions. Our proposed model, trained on HowTo100M, outperforms strong baselines (CLIP, MIL-NCE) on this alignment dataset by a significant margin; (iii) we apply the trained model in the zero-shot settings to multiple downstream video understanding tasks and achieve state-of-the-art results, including text-video retrieval on YouCook2, and weakly supervised video action segmentation on Breakfast-Action; (iv) we use the automatically aligned HowTo100M annotations for end-to-end finetuning of the backbone model, and obtain improved performance on downstream action recognition tasks.
翻訳日:2022-04-07 15:03:11 公開日:2022-04-06
# 手続き型マルチモーダルマシン理解のための時間モードエンティティグラフのモデル化

Modeling Temporal-Modal Entity Graph for Procedural Multimodal Machine Comprehension ( http://arxiv.org/abs/2204.02566v1 )

ライセンス: Link先を確認
Huibin Zhang and Zhengkun Zhang and Yao Zhang and Jun Wang and Yufan Li and Ning jiang and Xin wei and Zhenglu Yang(参考訳) 手続き型マルチモーダル文書(PMD)は、テキスト命令と対応する画像を段階的に整理する。 PMDの補完と下流推論タスクの表現の誘導は、手続き型マルチモーダルマシン理解(M3C)として指定されている。 本研究では,手続き的m3cを(文書や文レベルでの既存の探索と比較して)細粒度レベルで,すなわちエンティティにアプローチする。 我々は,その時間的・横断的関係の両方においてエンティティをモデル化し,新しい時間的モーダルエンティティグラフ(tmeg)を提案する。 具体的には、グラフ構造を定式化し、テキストおよび視覚的実体をキャプチャし、その時間・モーダル進化を追跡する。 また、グラフ符号化および推論を行うためにグラフ集約モジュールを導入する。 従来のデータセットRecipeQAと新しいデータセットCraftQAを用いて3つのM3Cタスクの総合的な実験を行い、TMEGの一般化をよりよく評価する。

Procedural Multimodal Documents (PMDs) organize textual instructions and corresponding images step by step. Comprehending PMDs and inducing their representations for the downstream reasoning tasks is designated as Procedural MultiModal Machine Comprehension (M3C). In this study, we approach Procedural M3C at a fine-grained level (compared with existing explorations at a document or sentence level), that is, entity. With delicate consideration, we model entity both in its temporal and cross-modal relation and propose a novel Temporal-Modal Entity Graph (TMEG). Specifically, graph structure is formulated to capture textual and visual entities and trace their temporal-modal evolution. In addition, a graph aggregation module is introduced to conduct graph encoding and reasoning. Comprehensive experiments across three Procedural M3C tasks are conducted on a traditional dataset RecipeQA and our new dataset CraftQA, which can better evaluate the generalization of TMEG.
翻訳日:2022-04-07 15:00:55 公開日:2022-04-06
# フェイクニュース」と偽ニュースデータセットのためのアノテーション・スキーム再構成

Annotation-Scheme Reconstruction for "Fake News" and Japanese Fake News Dataset ( http://arxiv.org/abs/2204.02718v1 )

ライセンス: Link先を確認
Taichi Murayama, Shohei Hisada, Makoto Uehara, Shoko Wakamiya, Eiji Aramaki(参考訳) フェイクニュースは多くの社会問題を引き起こし、それに対応する偽ニュース検知タスクについて広範な研究がなされている。 多くの偽ニュースデータセットがこの作業を促進するためにリソースとして構築された。 現代の研究は、ニュースの事実性にのみ焦点をあてている。 しかし、この側面だけでは、幅広い問題を伴う複雑な現象である「フェイクニュース」を説明するには不十分である。 偽ニュースの性質を十分に理解するためには,偽ニュース発信者の意図や社会への有害性,ニュースのターゲットなど,さまざまな観点から観察することが重要である。 本稿では,既存の偽ニュースデータセットの詳細な調査に基づいて,詳細なラベル付けを施した新しいアノテーション手法を提案する。 アノテーションスキームを用いて,日本初の偽ニュースデータセットを構築し,公開する。 アノテーションは偽ニュースの詳細な理解を提供するものと期待されている。 提案手法を用いて,日本語および他言語用のデータセットを構築する計画である。 日本語データセットはhttps://hkefka385.gi thub.io/dataset/fake news-japanese/で公開されている。

Fake news provokes many societal problems; therefore, there has been extensive research on fake news detection tasks to counter it. Many fake news datasets were constructed as resources to facilitate this task. Contemporary research focuses almost exclusively on the factuality aspect of the news. However, this aspect alone is insufficient to explain "fake news," which is a complex phenomenon that involves a wide range of issues. To fully understand the nature of each instance of fake news, it is important to observe it from various perspectives, such as the intention of the false news disseminator, the harmfulness of the news to our society, and the target of the news. We propose a novel annotation scheme with fine-grained labeling based on detailed investigations of existing fake news datasets to capture these various aspects of fake news. Using the annotation scheme, we construct and publish the first Japanese fake news dataset. The annotation scheme is expected to provide an in-depth understanding of fake news. We plan to build datasets for both Japanese and other languages using our scheme. Our Japanese dataset is published at https://hkefka385.gi thub.io/dataset/fake news-japanese/.
翻訳日:2022-04-07 15:00:37 公開日:2022-04-06
# プロンプト学習によるニューラルテキストマッチングのマルチタスク一般化能力の向上

Improving Multi-task Generalization Ability for Neural Text Matching via Prompt Learning ( http://arxiv.org/abs/2204.02725v1 )

ライセンス: Link先を確認
Shicheng Xu, Liang Pang, Huawei Shen, Xueqi Cheng(参考訳) テキストマッチングは情報検索と自然言語処理の両方において基本的な技術である。 テキストマッチングタスクは、2つの与えられたテキスト間の関係を決定する同じパラダイムを共有する。 明らかに、関係はタスクごとに異なり、例えば、文書検索における関連性、パラフレーズ識別における意味的アライメント、質問応答における回答可能な判断などである。 しかし、テキストマッチングに必要な信号は、正確なマッチング、セマンティックマッチング、推論マッチングといった有限の範囲に留まっている。 最近の最先端のニューラルテキストマッチングモデル、例えば事前学習言語モデル(plm)は、異なるタスクに一般化するのは難しい。 これは、タスク固有のデータセットにおけるエンドツーエンドの教師付き学習によって、モデルが異なるタスクへのモデルの一般化を損なう本質的なマッチング信号ではなく、データサンプルバイアスとタスク固有の信号が過大に強調されるためである。 この問題を克服するために,特殊化一般化訓練戦略を採用し,マッチプロンプトと呼ぶ。 特殊化段階では、異なるマッチングタスクの記述はいくつかのプロンプトトークンにマッピングされる。 一般化段階において、テキストマッチングモデルは、多様な複数のマッチングタスクで訓練することで本質的マッチング信号を探索する。 多様なマッチングタスクは、特定のタスクにデータサンプルバイアスを適合させるモデルを避けるため、モデルは本質的なマッチング信号の学習に集中することができる。 一方、第1ステップで得られたプロンプトトークンが対応するタスクに追加され、モデルが異なるタスク固有のマッチング信号の識別を支援する。 18のパブリックデータセットにおける実験結果は、match-promptがテキストマッチングにおけるplmのマルチタスク一般化能力を大幅に向上し、ドメイン内マルチタスク、ドメイン外マルチタスク、タスク固有のモデルよりも新しいタスク適応性能が得られることを示している。

Text matching is a fundamental technique in both information retrieval and natural language processing. Text matching tasks share the same paradigm that determines the relationship between two given texts. Evidently, the relationships vary from task to task, e.g. relevance in document retrieval, semantic alignment in paraphrase identification and answerable judgment in question answering. However, the essential signals for text matching remain in a finite scope, i.e. exact matching, semantic matching, and inference matching. Recent state-of-the-art neural text matching models, e.g. pre-trained language models (PLMs), are hard to generalize to different tasks. It is because the end-to-end supervised learning on task-specific dataset makes model overemphasize the data sample bias and task-specific signals instead of the essential matching signals, which ruins the generalization of model to different tasks. To overcome this problem, we adopt a specialization-gener alization training strategy and refer to it as Match-Prompt. In specialization stage, descriptions of different matching tasks are mapped to only a few prompt tokens. In generalization stage, text matching model explores the essential matching signals by being trained on diverse multiple matching tasks. High diverse matching tasks avoid model fitting the data sample bias on a specific task, so that model can focus on learning the essential matching signals. Meanwhile, the prompt tokens obtained in the first step are added to the corresponding tasks to help the model distinguish different task-specific matching signals. Experimental results on eighteen public datasets show that Match-Prompt can significantly improve multi-task generalization capability of PLMs in text matching, and yield better in-domain multi-task, out-of-domain multi-task and new task adaptation performance than task-specific model.
翻訳日:2022-04-07 15:00:21 公開日:2022-04-06
# Greedierが改善 - スパースサブスペースクラスタリングのためのイテレーション毎に複数の隣人を選択する

Greedier is Better: Selecting Multiple Neighbors per Iteration for Sparse Subspace Clustering ( http://arxiv.org/abs/2204.02572v1 )

ライセンス: Link先を確認
Jwo-Yuh Wu, Liang-Chi Huang, Wen-Hsuan Li, Chun-Hung Liu, and Rung-Hung Gau(参考訳) sparse subspace clustering (ssc) は、直交マッチング追跡 (omp) のような欲望に基づく隣人選択を用いており、一般的なl1最小化法に代わる計算効率の高い代替法として有名である。 本稿では,ompのスープアップであるgeneralized omp(gomp)を用いた新しいssc方式を提案する。 提案手法は, 1イテレーションごとに1つの隣り合わせを識別する従来のOMPと比較して, 提案手法はイテレーションを少なくし, アルゴリズムの複雑さを低減し, 有利に, 提案した停止規則は, 部分空間次元と雑音パワーのオフライン推定が不要である。 半ランダムモデルの下では,提案したGOMPの利点を正当化するために,隣接する回復率の観点から解析性能保証を確立する。 その結果,高い確率でGOMPが得られた。 i) 提案された停止規則により停止し、 (ii) OMPよりも真の隣人を検索できるため、最終的なデータのクラスタリング精度が高い。 提案手法の有効性を検証するために,合成データと実顔データの両方を用いた計算機シミュレーションを行った。

Sparse subspace clustering (SSC) using greedy-based neighbor selection, such as orthogonal matching pursuit (OMP), has been known as a popular computationally-effi cient alternative to the popular L1-minimization based methods. This paper proposes a new SSC scheme using generalized OMP (GOMP), a soup-up of OMP whereby multiple neighbors are identified per iteration, along with a new stopping rule requiring nothing more than a knowledge of the ambient signal dimension. Compared to conventional OMP, which identifies one neighbor per iteration, the proposed GOMP method involves fewer iterations, thereby enjoying lower algorithmic complexity; advantageously, the proposed stopping rule is free from off-line estimation of subspace dimension and noise power. Under the semi-random model, analytic performance guarantees, in terms of neighbor recovery rates, are established to justify the advantage of the proposed GOMP. The results show that, with a high probability, GOMP (i) is halted by the proposed stopping rule, and (ii) can retrieve more true neighbors than OMP, consequently yielding higher final data clustering accuracy. Computer simulations using both synthetic data and real human face data are provided to validate our analytic study and evidence the effectiveness of the proposed approach.
翻訳日:2022-04-07 14:59:40 公開日:2022-04-06
# 忘れずに効率的なテスト時間モデル適応

Efficient Test-Time Model Adaptation without Forgetting ( http://arxiv.org/abs/2204.02610v1 )

ライセンス: Link先を確認
Shuaicheng Niu and Jiaxiang Wu and Yifan Zhang and Yaofo Chen and Shijian Zheng and Peilin Zhao and Mingkui Tan(参考訳) テスト時間適応(tta)は、与えられたモデルw.r.t.をテストサンプルに適用することにより、トレーニングとテストデータの間の潜在的分布シフトに対処する。 テスト環境が頻繁に変化する場合、このタスクは特に深いモデルにとって重要です。 この課題に対処するための最近の試みはいくつかあるが、我々はまだ2つの実践的な課題に直面している。 1) 既存の手法では,各試験サンプルに対して逆向きの計算を行う必要があり,その結果,多くのアプリケーションに予測コストがかかる。 2)既存のttaソリューションは,アウトオブディストリビューションデータのテスト性能を著しく向上させるが,tta後のインディストリビューションデータ(破滅的な忘れ)では,パフォーマンスが著しく低下することが多い。 本稿では,全ての試験試料がモデル適応に等しく寄与するわけではなく,高エントロピーがモデルを破壊しうるノイズ勾配につながる可能性があることを指摘する。 そこで本研究では,実験時間適応におけるエントロピー損失を最小限に抑えるためにモデルを更新し,信頼性の高い非冗長なサンプルを同定するアクティブサンプル選択基準を提案する。 さらに,この課題を解消するために,漁獲の重要度を疑似ラベル生成試験から推定するドラスティックな変化から重要なモデルパラメータを制約するフィッシャー正規化器を導入する。 CIFAR-10-C, ImageNet-C, ImageNet-Rの大規模な実験により,提案手法の有効性が検証された。

Test-time adaptation (TTA) seeks to tackle potential distribution shifts between training and testing data by adapting a given model w.r.t. any testing sample. This task is particularly important for deep models when the test environment changes frequently. Although some recent attempts have been made to handle this task, we still face two practical challenges: 1) existing methods have to perform backward computation for each test sample, resulting in unbearable prediction cost to many applications; 2) while existing TTA solutions can significantly improve the test performance on out-of-distribution data, they often suffer from severe performance degradation on in-distribution data after TTA (known as catastrophic forgetting). In this paper, we point out that not all the test samples contribute equally to model adaptation, and high-entropy ones may lead to noisy gradients that could disrupt the model. Motivated by this, we propose an active sample selection criterion to identify reliable and non-redundant samples, on which the model is updated to minimize the entropy loss for test-time adaptation. Furthermore, to alleviate the forgetting issue, we introduce a Fisher regularizer to constrain important model parameters from drastic changes, where the Fisher importance is estimated from test samples with generated pseudo labels. Extensive experiments on CIFAR-10-C, ImageNet-C, and ImageNet-R verify the effectiveness of our proposed method.
翻訳日:2022-04-07 14:57:41 公開日:2022-04-06
# GPUを用いたGCNトレーニングにおける後方アグリゲーションの高速化

Accelerating Backward Aggregation in GCN Training with Execution Path Preparing on GPUs ( http://arxiv.org/abs/2204.02662v1 )

ライセンス: Link先を確認
Shaoxian Xu, Zhiyuan Shao, Ci Yang, Xiaofei Liao, Hai Jin(参考訳) 新たなGraph Convolutional Network(GCN)は、今では多くのドメインで広く使われており、GCNトレーニングを加速することでアプリケーションの効率を改善することは困難である。 入力実世界のグラフのスパーシティの性質と爆発的スケールのために、最先端のgcnトレーニングシステム(gnnadvisorなど)は、グラフ頂点間のメッセージ交換(集約)を高速化するためにグラフ処理技術を使用している。 にもかかわらず、これらのシステムは前向きおよび後向きの伝播相の集約段階を、入力グラフの全ての頂点上で不特定に計算を行う全能グラフ処理手順として扱う。 本稿では,与えられたトレーニングセットを持つgcnトレーニング問題において,その後方伝播位相(本論文では後方凝集と呼ばれる)の集約段階を,入力グラフの部分的頂点のみの計算を行う部分アクティブグラフ処理手順に変換することができることを指摘した。 このような発見を生かして,GPUを用いたGCNトレーニングの後方伝播時に使用するデータを収集・結合する実行経路作成手法を提案する。 実験の結果,本手法はgnnadvisorと比較して,典型的な実世界のグラフにおけるgcnトレーニングの後方集計性能を1.48x~5.65x向上させることがわかった。 また、トレーニング前(前処理中)またはトレーニング後オンザフライで実行経路の準備を行うことができる。 前処理で使用する場合、GCNトレーニング全体の1.05x~1.37xを改善する。 オンザフライで使用すると、GCNトレーニング全体の1.03x~1.35xが改善される。

The emerging Graph Convolutional Network (GCN) has now been widely used in many domains, and it is challenging to improve the efficiencies of applications by accelerating the GCN trainings. For the sparsity nature and exploding scales of input real-world graphs, state-of-the-art GCN training systems (e.g., GNNAdvisor) employ graph processing techniques to accelerate the message exchanging (i.e. aggregations) among the graph vertices. Nevertheless, these systems treat both the aggregation stages of forward and backward propagation phases as all-active graph processing procedures that indiscriminately conduct computation on all vertices of an input graph. In this paper, we first point out that in a GCN training problem with a given training set, the aggregation stages of its backward propagation phase (called as backward aggregations in this paper) can be converted to partially-active graph processing procedures, which conduct computation on only partial vertices of the input graph. By leveraging such a finding, we propose an execution path preparing method that collects and coalesces the data used during backward propagations of GCN training conducted on GPUs. The experimental results show that compared with GNNAdvisor, our approach improves the performance of the backward aggregation of GCN trainings on typical real-world graphs by 1.48x~5.65x. Moreover, the execution path preparing can be conducted either before the training (during preprocessing) or on-the-fly with the training. When used during preprocessing, our approach improves the overall GCN training by 1.05x~1.37x. And when used on-the-fly, our approach improves the overall GCN training by 1.03x~1.35x.
翻訳日:2022-04-07 14:57:15 公開日:2022-04-06
# 分離性を超えて:相対的表現の関連亜集団への線形移動性の解析

Beyond Separability: Analyzing the Linear Transferability of Contrastive Representations to Related Subpopulations ( http://arxiv.org/abs/2204.02683v1 )

ライセンス: Link先を確認
Jeff Z. HaoChen, Colin Wei, Ananya Kumar, Tengyu Ma(参考訳) コントラスト学習は、ラベルのないデータを用いて下流分類タスクで線形に分離可能な表現を生成する、非常に効果的な方法である。 最近の研究では、対照的表現はデータが単一のドメインから来るときだけでなく、ドメイン間の転送にも有効であることが示されている。 具体的には、2つのドメイン(ソースとターゲット)のデータに基づいてコントラスト表現をトレーニングし、ラベル付きソースデータのみを使用してラベルを予測する線形分類ヘッドをトレーニングすると、その結果の分類器もターゲットドメインへの良好な転送を示す。 本研究では,データ上の正対グラフのスペクトルクラスタリングと対比学習を関連づけた,HaoChen et al (2021) の提唱したフレームワークに基づいて,この線形移動可能性現象を解析する。 比較表現が正対グラフのサブポピュレーション間の関係を捉えていることが証明された: 異なる領域の同じクラスのデータ(例えば、写真犬と漫画犬)がグラフに接続されたときに、線形転送可能性が発生する。 我々の分析により、ソースクラスとターゲットクラスは非有界密度比を持ち、遠方の表現にマッピングできる。 私たちの証明は、HaoChen et al(2021年)の主な成果に対する技術的改善にも基づいています。

Contrastive learning is a highly effective method which uses unlabeled data to produce representations which are linearly separable for downstream classification tasks. Recent works have shown that contrastive representations are not only useful when data come from a single domain, but are also effective for transferring across domains. Concretely, when contrastive representations are trained on data from two domains (a source and target) and a linear classification head is trained to predict labels using only the labeled source data, the resulting classifier also exhibits good transfer to the target domain. In this work, we analyze this linear transferability phenomenon, building upon the framework proposed by HaoChen et al (2021) which relates contrastive learning to spectral clustering of a positive-pair graph on the data. We prove that contrastive representations capture relationships between subpopulations in the positive-pair graph: linear transferability can occur when data from the same class in different domains (e.g., photo dogs and cartoon dogs) are connected in the graph. Our analysis allows the source and target classes to have unbounded density ratios and be mapped to distant representations. Our proof is also built upon technical improvements over the main results of HaoChen et al (2021), which may be of independent interest.
翻訳日:2022-04-07 14:56:49 公開日:2022-04-06
# 情報ボトルネックによる逆行例におけるロバスト・非ロバスト特徴の蒸留

Distilling Robust and Non-Robust Features in Adversarial Examples by Information Bottleneck ( http://arxiv.org/abs/2204.02735v1 )

ライセンス: Link先を確認
Junho Kim, Byung-Kwan Lee, Yong Man Ro(参考訳) 注意深い摂動によって生じる敵の例は、研究分野でかなりの注目を集めている。 近年の研究では、ロバストな特徴と非破壊的な特徴の存在が敵の例の主な原因であると主張し、特徴空間におけるそれらの内部相互作用を調査している。 本稿では,Information Bottleneckを用いて,特徴表現をロバストかつ非ロバストな特徴に明示的に蒸留する方法を提案する。 具体的には,各特徴単位に雑音変動を注入し,特徴表現における情報フローを評価し,特徴単位をロバストまたは非ロバストのいずれかに分割する。 包括的実験により, 蒸留した特徴は, 対向予測と高い相関関係にあり, 自己認識可能な意味情報を持つことを示した。 さらに, モデル予測に直接関係する非破壊的特徴の勾配を増大させる攻撃機構を提案し, 破壊モデルロバスト性の有効性を検証した。

Adversarial examples, generated by carefully crafted perturbation, have attracted considerable attention in research fields. Recent works have argued that the existence of the robust and non-robust features is a primary cause of the adversarial examples, and investigated their internal interactions in the feature space. In this paper, we propose a way of explicitly distilling feature representation into the robust and non-robust features, using Information Bottleneck. Specifically, we inject noise variation to each feature unit and evaluate the information flow in the feature representation to dichotomize feature units either robust or non-robust, based on the noise variation magnitude. Through comprehensive experiments, we demonstrate that the distilled features are highly correlated with adversarial prediction, and they have human-perceptible semantic information by themselves. Furthermore, we present an attack mechanism intensifying the gradient of non-robust features that is directly related to the model prediction, and validate its effectiveness of breaking model robustness.
翻訳日:2022-04-07 14:56:25 公開日:2022-04-06
# DeFTA: FedAvgのプラグインとプレイの分散リプレース

DeFTA: A Plug-and-Play Decentralized Replacement for FedAvg ( http://arxiv.org/abs/2204.02632v1 )

ライセンス: Link先を確認
Yuhao Zhou, Minjia Shi, Yuxin Tian, Qing Ye, Jiancheng Lv(参考訳) フェデレーション学習(fl)は、ローカルな生データセットの共有を必要とせず、プライバシの懸念を実質的に軽減し、分離されたデータ問題を軽減するために、大規模分散機械学習(ml)にとって重要な実現手段である。 FLの繁栄は、主にFedAvgと呼ばれる集中型のフレームワークによるもので、労働者がモデルトレーニングを担当し、サーバがモデルアグリゲーションを制御している。 しかしながら、FedAvgの集中型ワーカサーバアーキテクチャは、クラスタのスケーラビリティの低さ、データリークのリスク、中央サーバの障害や障害など、新たな懸念を提起している。 これらの問題を解決するために、我々は、FedAvgのプラグアンドプレイ代替として機能する分散FLフレームワークであるDeFTA(Decentralized Federated Trusted Averaging)を提案し、インストール後のフェデレート学習プロセスに即時、より優れたセキュリティ、スケーラビリティ、フォールトトレランスをもたらす。 原則として、上述した問題を妥協やトレードオフなしにアーキテクチャの観点から根本的に解決し、主に理論的なパフォーマンス分析を伴う新たなモデル集約式と、システムの堅牢性を大幅に改善するための分散信頼システム(DTS)から構成される。 フレームワークレベルでは、DeFTAはFedAvgの代替となるので、FedAvg向けに発行された \textit{prevalent algorithm もDeFTAで簡単に利用できる。 6つのデータセットと6つの基本モデルに関する大規模な実験は、DeFTAがより現実的な環境でFedAvgと同等のパフォーマンスを持つだけでなく、労働者の66%が悪意がある場合でも大きなレジリエンスを達成することを示唆している。 さらに、より強力なユーザビリティを備えたDeFTAの非同期版も提示します。

Federated learning (FL) is identified as a crucial enabler for large-scale distributed machine learning (ML) without the need for local raw dataset sharing, substantially reducing privacy concerns and alleviating the isolated data problem. In reality, the prosperity of FL is largely due to a centralized framework called FedAvg, in which workers are in charge of model training and servers are in control of model aggregation. However, FedAvg's centralized worker-server architecture has raised new concerns, be it the low scalability of the cluster, the risk of data leakage, and the failure or even defection of the central server. To overcome these problems, we propose Decentralized Federated Trusted Averaging (DeFTA), a decentralized FL framework that serves as a plug-and-play replacement for FedAvg, instantly bringing better security, scalability, and fault-tolerance to the federated learning process after installation. In principle, it fundamentally resolves the above-mentioned issues from an architectural perspective without compromises or tradeoffs, primarily consisting of a new model aggregating formula with theoretical performance analysis, and a decentralized trust system (DTS) to greatly improve system robustness. Note that since DeFTA is an alternative to FedAvg at the framework level, \textit{prevalent algorithms published for FedAvg can be also utilized in DeFTA with ease}. Extensive experiments on six datasets and six basic models suggest that DeFTA not only has comparable performance with FedAvg in a more realistic setting, but also achieves great resilience even when 66% of workers are malicious. Furthermore, we also present an asynchronous variant of DeFTA to endow it with more powerful usability.
翻訳日:2022-04-07 14:55:35 公開日:2022-04-06
# 誤動作型AIと人的エージェントのデリゲートのための認知的枠組み

A Cognitive Framework for Delegation Between Error-Prone AI and Human Agents ( http://arxiv.org/abs/2204.02889v1 )

ライセンス: Link先を確認
Andrew Fuchs, Andrea Passarella, Marco Conti(参考訳) 人間はAIベースのシステムとの対話が増加するにつれて、人工システムが人間の理解を反映して行動していることを保証する必要がある。 同じ環境で動作する人間とaiエージェントの場合、エージェントの視点から人間の行動や能力に対する理解と反応の重要性、また、ある時点において、誰がより適していると考えられるかによって、人間またはエージェントに決定を委譲する可能性に留意する。 このような能力によって、人間-AIシステム全体の応答性と実用性が向上する。 そこで本研究では,認知的刺激を受けた行動モデルを用いて,人間およびaiエージェントの行動を予測する。 予測された行動、および特定の目標に関するパフォーマンスは、中間体を用いて人間とaiエージェント間の制御を委譲するために使用される。 我々が示すように、これは目標の追求において人間またはエージェントの潜在的な欠点を克服することができる。

With humans interacting with AI-based systems at an increasing rate, it is necessary to ensure the artificial systems are acting in a manner which reflects understanding of the human. In the case of humans and artificial AI agents operating in the same environment, we note the significance of comprehension and response to the actions or capabilities of a human from an agent's perspective, as well as the possibility to delegate decisions either to humans or to agents, depending on who is deemed more suitable at a certain point in time. Such capabilities will ensure an improved responsiveness and utility of the entire human-AI system. To that end, we investigate the use of cognitively inspired models of behavior to predict the behavior of both human and AI agents. The predicted behavior, and associated performance with respect to a certain goal, is used to delegate control between humans and AI agents through the use of an intermediary entity. As we demonstrate, this allows overcoming potential shortcomings of either humans or agents in the pursuit of a goal.
翻訳日:2022-04-07 14:55:00 公開日:2022-04-06
# koopmanによる有向グラフと時間発展グラフのスペクトルクラスタリング

Koopman-based spectral clustering of directed and time-evolving graphs ( http://arxiv.org/abs/2204.02951v1 )

ライセンス: Link先を確認
Stefan Klus, Natasa Djurdjevac Conrad(参考訳) 非指向グラフのスペクトルクラスタリングアルゴリズムは確立されており、画像セグメント化やゲノムシークエンシングから信号処理やソーシャルネットワーク分析まで、教師なし機械学習問題にうまく適用されているが、クラスタリング指向グラフはいまだに非常に難しい。 2つの主な課題は、有向グラフに関連付けられたグラフラプラシアンの固有値と固有ベクトルが一般に複素値であり、有向グラフのクラスタの定義が普遍的に受け入れられていないことである。 まず、グラフラプラシアンと転送作用素の関係、特に非向グラフのクラスタと確率力学系における準安定集合の関係を活用し、次に、有向グラフと時間発展グラフのクラスタリングアルゴリズムを導出するためにメタスタビリティの概念の一般化を利用する。 結果として得られるクラスターはコヒーレントな集合として解釈することができ、流体の輸送と混合過程の解析において重要な役割を果たす。

While spectral clustering algorithms for undirected graphs are well established and have been successfully applied to unsupervised machine learning problems ranging from image segmentation and genome sequencing to signal processing and social network analysis, clustering directed graphs remains notoriously difficult. Two of the main challenges are that the eigenvalues and eigenvectors of graph Laplacians associated with directed graphs are in general complex-valued and that there is no universally accepted definition of clusters in directed graphs. We first exploit relationships between the graph Laplacian and transfer operators and in particular between clusters in undirected graphs and metastable sets in stochastic dynamical systems and then use a generalization of the notion of metastability to derive clustering algorithms for directed and time-evolving graphs. The resulting clusters can be interpreted as coherent sets, which play an important role in the analysis of transport and mixing processes in fluid flows.
翻訳日:2022-04-07 14:54:45 公開日:2022-04-06
# ヒンディー語・英語音声における攻撃性:音響相関と自動同定

Aggression in Hindi and English Speech: Acoustic Correlates and Automatic Identification ( http://arxiv.org/abs/2204.02814v1 )

ライセンス: Link先を確認
Ritesh Kumar, Atul Kr. Ojha, Bornini Lahiri, Chingrimnng Lungleng(参考訳) 本稿では,ヒンディー語における政治談話の音響分析の結果を述べるとともに,ヒンディー語と英語の話者が日常的に用いているアグレッシブ・スピーチの音響的特徴について論じる。 この研究は、わずか10時間以上の政治談話のコーパスに基づいており、ニュースチャンネルや政治演説に関する議論を含んでいる。 本研究では,アコースティックモデルのみに基づいて,英語とヒンディー語における攻撃を識別する2つの自動分類システムを開発した。 ヒンディー語分類器は50時間のアノテート音声で訓練され、英語の分類器は40時間のアノテート音声で訓練され、それぞれ73%と66%の正確さを達成した。 本稿では,この注釈付きデータセットの開発,分類器の開発実験,およびその誤りについて論じる。

In the present paper, we will present the results of an acoustic analysis of political discourse in Hindi and discuss some of the conventionalised acoustic features of aggressive speech regularly employed by the speakers of Hindi and English. The study is based on a corpus of slightly over 10 hours of political discourse and includes debates on news channel and political speeches. Using this study, we develop two automatic classification systems for identifying aggression in English and Hindi speech, based solely on an acoustic model. The Hindi classifier, trained using 50 hours of annotated speech, and English classifier, trained using 40 hours of annotated speech, achieve a respectable accuracy of over 73% and 66% respectively. In this paper, we discuss the development of this annotated dataset, the experiments for developing the classifier and discuss the errors that it makes.
翻訳日:2022-04-07 14:54:09 公開日:2022-04-06
# 自己教師付き事前学習とデータ拡張による音声音声合成の強化

Enhanced Direct Speech-to-Speech Translation Using Self-supervised Pre-training and Data Augmentation ( http://arxiv.org/abs/2204.02967v1 )

ライセンス: Link先を確認
Sravya Popuri, Peng-Jen Chen, Changhan Wang, Juan Pino, Yossi Adi, Jiatao Gu, Wei-Ning Hsu, Ann Lee(参考訳) s2st(direct speech-to-speech translation)モデルは,asr(automatic speech recognition),mt(mach ine translation),tts(tex t-to-speech)合成からなる従来のカスケードシステムで使用可能なデータ量に比べ,並列s2stデータが少ないため,データ不足に苦しむ。 本研究では,ラベルなし音声データとデータ拡張を用いた自己教師付き事前学習について検討する。 我々は、最近提案された音声から単位への翻訳(S2UT)フレームワークを利用して、対象の音声を離散表現に符号化し、音声からテキストへの翻訳(S2T)に適した事前学習と効率的な部分的微調整技術をS2UTドメインに転送する。 実験の結果,マルチタスク学習とBLEUゲインの4.3-12.0に比べ,自己教師付き事前学習はモデル性能を継続的に向上し,MTを応用して弱い教師付きトレーニングデータを生成するデータ拡張手法と組み合わせることができることがわかった。 オーディオサンプルは、https://facebookrese arch.github.io/speec h_translation/enhanc ed_direct_s2st_units /index.htmlで入手できる。

Direct speech-to-speech translation (S2ST) models suffer from data scarcity issues as there exists little parallel S2ST data, compared to the amount of data available for conventional cascaded systems that consist of automatic speech recognition (ASR), machine translation (MT), and text-to-speech (TTS) synthesis. In this work, we explore self-supervised pre-training with unlabeled speech data and data augmentation to tackle this issue. We take advantage of a recently proposed speech-to-unit translation (S2UT) framework that encodes target speech into discrete representations, and transfer pre-training and efficient partial finetuning techniques that work well for speech-to-text translation (S2T) to the S2UT domain by studying both speech encoder and discrete unit decoder pre-training. Our experiments show that self-supervised pre-training consistently improves model performance compared with multitask learning with a BLEU gain of 4.3-12.0 under various data setups, and it can be further combined with data augmentation techniques that apply MT to create weakly supervised training data. Audio samples are available at: https://facebookrese arch.github.io/speec h_translation/enhanc ed_direct_s2st_units /index.html .
翻訳日:2022-04-07 14:53:52 公開日:2022-04-06
# Flow-Guided Video Inpaintingのためのエンドツーエンドフレームワーク

Towards An End-to-End Framework for Flow-Guided Video Inpainting ( http://arxiv.org/abs/2204.02663v1 )

ライセンス: Link先を確認
Zhen Li, Cheng-Ze Lu, Jianhua Qin, Chun-Le Guo, Ming-Ming Cheng(参考訳) フレーム間の動き情報をキャプチャする光フローは、その軌跡に沿ってピクセルを伝播させることにより、最近のビデオインペイント手法で利用される。 しかし、これらの手法における手作りフローベースプロセスは、塗装パイプライン全体を形成するために別々に適用される。 したがって、これらの手法は効率が低く、初期の中間的な結果に大きく依存する。 本稿では,フロー完了,特徴伝達,コンテンツ幻覚モジュールという3つの学習モジュールを精巧に設計し,フロー誘導型ビデオインペインティング(e$^2$fgvi)のエンドツーエンドフレームワークを提案する。 3つのモジュールは、以前のフローベース手法の3つの段階に対応するが、共同最適化が可能であり、より効率的で効果的な塗布プロセスをもたらす。 実験の結果,提案手法は定性的かつ定量的に最先端手法を上回っており,有望な効率性を示している。 コードはhttps://github.com/m cg-nku/e2fgviで入手できる。

Optical flow, which captures motion information across frames, is exploited in recent video inpainting methods through propagating pixels along its trajectories. However, the hand-crafted flow-based processes in these methods are applied separately to form the whole inpainting pipeline. Thus, these methods are less efficient and rely heavily on the intermediate results from earlier stages. In this paper, we propose an End-to-End framework for Flow-Guided Video Inpainting (E$^2$FGVI) through elaborately designed three trainable modules, namely, flow completion, feature propagation, and content hallucination modules. The three modules correspond with the three stages of previous flow-based methods but can be jointly optimized, leading to a more efficient and effective inpainting process. Experimental results demonstrate that the proposed method outperforms state-of-the-art methods both qualitatively and quantitatively and shows promising efficiency. The code is available at https://github.com/M CG-NKU/E2FGVI.
翻訳日:2022-04-07 14:50:43 公開日:2022-04-06
# ローリングカラー:対向レーザーによる交通光認識への攻撃

Rolling Colors: Adversarial Laser Exploits against Traffic Light Recognition ( http://arxiv.org/abs/2204.02675v1 )

ライセンス: Link先を確認
Chen Yan, Zhijian Xu, Zhanyuan Yin, Xiaoyu Ji, Wenyuan Xu(参考訳) 都市部の完全自動運転には交通光認識が不可欠である。 本稿では,レーザ干渉をカメラに隠蔽することで,交通信号認識機構を騙す可能性を検討する。 cmosセンサのローリングシャッターを利用することで、画像内の交通信号に重複するカラーストライプを注入することで、赤信号がグリーンライトとして認識されるか、あるいはその逆になる可能性がある。 成功率を高めるために, レーザ干渉実験モデルに基づいて, 効果的なレーザパラメータを探索するための最適化手法を考案する。 2つの最先端認識システムと5台のカメラのエミュレートと実世界のセットアップにおける評価では、赤と緑と緑と赤のアタックで最大成功率は30%と86.25%であった。 我々は、この攻撃が40メートル以上離れた移動車に対して連続的なフレームで有効であることが観察され、赤信号や緊急停止などの自動運転に終端的な影響をもたらす可能性がある。 脅威を軽減するため, 転がりシャッター機構の再設計を提案する。

Traffic light recognition is essential for fully autonomous driving in urban areas. In this paper, we investigate the feasibility of fooling traffic light recognition mechanisms by shedding laser interference on the camera. By exploiting the rolling shutter of CMOS sensors, we manage to inject a color stripe overlapped on the traffic light in the image, which can cause a red light to be recognized as a green light or vice versa. To increase the success rate, we design an optimization method to search for effective laser parameters based on empirical models of laser interference. Our evaluation in emulated and real-world setups on 2 state-of-the-art recognition systems and 5 cameras reports a maximum success rate of 30% and 86.25% for Red-to-Green and Green-to-Red attacks. We observe that the attack is effective in continuous frames from more than 40 meters away against a moving vehicle, which may cause end-to-end impacts on self-driving such as running a red light or emergency stop. To mitigate the threat, we propose redesigning the rolling shutter mechanism.
翻訳日:2022-04-07 14:50:25 公開日:2022-04-06
# CCAT-NET:Covid-19肺病変分類のための新しいトランスフォーマーベースの半教師付きフレームワーク

CCAT-NET: A Novel Transformer Based Semi-supervised Framework for Covid-19 Lung Lesion Segmentation ( http://arxiv.org/abs/2204.02839v1 )

ライセンス: Link先を確認
Mingyang Liu, Li Xiao, Huiqin Jiang, Qing He(参考訳) 新型コロナウイルス感染症(COVID-19)の感染拡大を受け、数百万人が死亡した。 CT画像からの病変の自動分離は、スクリーニング、治療、モニタリングを医師を助けることができる。 しかし,CT画像からの病変の正確なセグメンテーションは,データやモデル制限のため非常に困難である。 最近のtransformerベースのネットワークは、多くのタスクでtransformerがcnnを上回っているため、コンピュータビジョンの分野で多くの注目を集めている。 本研究では,CNNとTransformerを組み合わせた新しいネットワーク構造を提案する。 さらに,ラベル付きデータの不足に対処する効率的な半教師付き学習フレームワークを提案する。 広範な実験により,提案するネットワークは既存のネットワークの大半を上回り,半教師付き学習フレームワークはdice係数と感度の点でベースネットワークを3.0%,8.2%上回ることがわかった。

The spread of the novel coronavirus disease 2019 (COVID-19) has claimed millions of lives. Automatic segmentation of lesions from CT images can assist doctors with screening, treatment, and monitoring. However, accurate segmentation of lesions from CT images can be very challenging due to data and model limitations. Recently, Transformer-based networks have attracted a lot of attention in the area of computer vision, as Transformer outperforms CNN at a bunch of tasks. In this work, we propose a novel network structure that combines CNN and Transformer for the segmentation of COVID-19 lesions. We further propose an efficient semi-supervised learning framework to address the shortage of labeled data. Extensive experiments showed that our proposed network outperforms most existing networks and the semi-supervised learning framework can outperform the base network by 3.0% and 8.2% in terms of Dice coefficient and sensitivity.
翻訳日:2022-04-07 14:50:06 公開日:2022-04-06
# 画素レベルの雑音認識による現実的な雑音画像生成学習

Learning to Generate Realistic Noisy Images via Pixel-level Noise-aware Adversarial Training ( http://arxiv.org/abs/2204.02844v1 )

ライセンス: Link先を確認
Yuanhao Cai, Xiaowan Hu, Haoqian Wang, Yulun Zhang, Hanspeter Pfister, Donglai Wei(参考訳) 既存のディープラーニングの実演法では、監視のために大量のノイズとクリーンなイメージペアが必要である。 それでも、真にノイズの多いクリーンなデータセットをキャプチャすることは、受け入れられないコストと面倒な手続きである。 この問題を軽減するため,本研究では,現実的なノイズ画像の生成方法について検討する。 まず、各実雑音画素をランダムな変数として扱う、単純で合理的なノイズモデルを定式化する。 このモデルはノイズ画像生成問題を画像領域アライメントとノイズ領域アライメントの2つのサブ問題に分割する。 次に,PNGAN(Pixel-level Noise-aware Generative Adversarial Network)という新しいフレームワークを提案する。 pnganはトレーニング済みのreal denoiserを使用して、偽および実際のノイズの多い画像をほぼノイズのないソリューション空間にマッピングし、画像領域アライメントを実行する。 同時に、PNGANはノイズ領域アライメントを行うための画素レベルの対向訓練を確立する。 さらに、ノイズフィッティングを改善するために、ジェネレータとしてSimple Multi-scale Network (SMNet) を提案する。 定性的検証は、PNGANが生成するノイズが強度と分布の点で実雑音と非常によく似ていることを示している。 定量的実験により、生成したノイズ画像で訓練された一連のデノイザーが、4つの実デノイジングベンチマークで最先端(SOTA)の結果が得られることが示された。

Existing deep learning real denoising methods require a large amount of noisy-clean image pairs for supervision. Nonetheless, capturing a real noisy-clean dataset is an unacceptable expensive and cumbersome procedure. To alleviate this problem, this work investigates how to generate realistic noisy images. Firstly, we formulate a simple yet reasonable noise model that treats each real noisy pixel as a random variable. This model splits the noisy image generation problem into two sub-problems: image domain alignment and noise domain alignment. Subsequently, we propose a novel framework, namely Pixel-level Noise-aware Generative Adversarial Network (PNGAN). PNGAN employs a pre-trained real denoiser to map the fake and real noisy images into a nearly noise-free solution space to perform image domain alignment. Simultaneously, PNGAN establishes a pixel-level adversarial training to conduct noise domain alignment. Additionally, for better noise fitting, we present an efficient architecture Simple Multi-scale Network (SMNet) as the generator. Qualitative validation shows that noise generated by PNGAN is highly similar to real noise in terms of intensity and distribution. Quantitative experiments demonstrate that a series of denoisers trained with the generated noisy images achieve state-of-the-art (SOTA) results on four real denoising benchmarks.
翻訳日:2022-04-07 14:49:51 公開日:2022-04-06
# ネットワークアンタングリングの計算複雑性の解消

Disentangling the Computational Complexity of Network Untangling ( http://arxiv.org/abs/2204.02668v1 )

ライセンス: Link先を確認
Vincent Froese, Pascal Kunz, Philipp Zschoche(参考訳) 離散時間ステップでエッジセットが変化する時間グラフ上のVertex Coverの変種であるRozenshtein, Tatti, and Gionis [DMKD 2021]によるネットワークアンハングリング問題について検討する。 2つの問題がある。 目標は、頂点毎に最大で$k$の時間間隔を選択することで、すべての時間辺がカバーされ、(問題変量に依存する)最大間隔長または区間長の総和が最小になる。 この問題は、複雑なネットワーク内のエンティティの相互作用を説明するアクティビティタイムラインの探索にデータマイニングの応用がある。 この問題のどちらの変種もNPハードである。 本稿では,頂点数,時間グラフの寿命,頂点ごとの間隔数,間隔長境界といったパラメータを含む多変量複雑性解析を開始する。 どちらの問題バージョンに対しても、これらの4つのパラメータの組合せのパラメータ化複雑性を完全に解決し、固定パラメータのトラクタビリティの境界を規定する。

We study the network untangling problem introduced by Rozenshtein, Tatti, and Gionis [DMKD 2021], which is a variant of Vertex Cover on temporal graphs -- graphs whose edge set changes over discrete time steps. They introduce two problem variants. The goal is to select at most $k$ time intervals for each vertex such that all time-edges are covered and (depending on the problem variant) either the maximum interval length or the total sum of interval lengths is minimized. This problem has data mining applications in finding activity timelines that explain the interactions of entities in complex networks. Both variants of the problem are NP-hard. In this paper, we initiate a multivariate complexity analysis involving the following parameters: number of vertices, lifetime of the temporal graph, number of intervals per vertex, and the interval length bound. For both problem versions, we (almost) completely settle the parameterized complexity for all combinations of those four parameters, thereby delineating the border of fixed-parameter tractability.
翻訳日:2022-04-07 14:49:34 公開日:2022-04-06
# (参考訳) テキストリフレーミングによる肯定的視点の導入 [全文訳有]

Inducing Positive Perspectives with Text Reframing ( http://arxiv.org/abs/2204.02952v1 )

ライセンス: CC BY 4.0
Caleb Ziems, Minzhi Li, Anthony Zhang, Diyi Yang(参考訳) 感情伝達はテキストスタイル転送タスクの一般的な例のひとつであり、テキストの感情極性の逆転を目標としている。 感情の逆転は、意味の逆転でもある。 我々は、ネガティブな視点を中和し、オリジナルの意味を矛盾させることなく著者にとってよりポジティブな視点を生み出す、ポジティブリフレーミングと呼ばれる別のタスクを導入する。 意味保存に対する我々の主張は、ポジティブリフレーミングを挑戦的で意味的にリッチなタスクにします。 そこで本研究では,8,349文対と12,755文の構造化アノテーションを用いて,理論上動機づけされた6つの再フレーミング戦略を用いて,ポジティブな再フレーミングを説明する。 次に,最先端テキストスタイル転送モデルの評価を行い,今後の課題と方向性について考察した。

Sentiment transfer is one popular example of a text style transfer task, where the goal is to reverse the sentiment polarity of a text. With a sentiment reversal comes also a reversal in meaning. We introduce a different but related task called positive reframing in which we neutralize a negative point of view and generate a more positive perspective for the author without contradicting the original meaning. Our insistence on meaning preservation makes positive reframing a challenging and semantically rich task. To facilitate rapid progress, we introduce a large-scale benchmark, Positive Psychology Frames, with 8,349 sentence pairs and 12,755 structured annotations to explain positive reframing in terms of six theoretically-motiva ted reframing strategies. Then we evaluate a set of state-of-the-art text style transfer models, and conclude by discussing key challenges and directions for future work.
翻訳日:2022-04-07 14:47:25 公開日:2022-04-06
# fairneuron: 選択的ニューロン上の敵ゲームによるディープニューラルネットワークの公平性向上

FairNeuron: Improving Deep Neural Network Fairness with Adversary Games on Selective Neurons ( http://arxiv.org/abs/2204.02567v1 )

ライセンス: Link先を確認
Xuanqi Gao, Juan Zhai, Shiqing Ma, Chao Shen, Yufei Chen, Qian Wang(参考訳) ディープ・ニューラル・ニューラルネットワーク(DNN)は、社会に多大な影響を与えている多くの重要なシステムに統合されているため、公平性などの倫理的パフォーマンスに対する懸念が高まっている。 残念なことに、多くの場合、モデルの公平さと正確さは最適化の矛盾する目標である。 この問題を解決するために,モデルレベルでの対戦ゲームを用いることで,モデルフェアネスを改善するための作業が数多く行われている。 本手法では,主課題における予測精度以外のモデルの公平性を評価し,バランスの取れた結果を得るために協調最適化を行う。 本稿では,後方伝播に基づくトレーニングを行うと,その相反する現象が各ニューロンのレベルに現れることに気付いた。 そこで本研究では,DNNモデルの自動修復ツールであるFairNeuronを提案する。 正確さと公平さのトレーニング目標から相反する最適化方向のニューロンを検出し、選択的ドロップアウトによるトレードオフを達成する。 最先端のメソッドと比較して、私たちのアプローチは軽量で、スケーラブルで効率的です。 3つのデータセットに対する評価は、FairNeuronが安定したユーティリティを維持しながら、全てのモデルの公平性を効果的に改善できることを示している。

With Deep Neural Network (DNN) being integrated into a growing number of critical systems with far-reaching impacts on society, there are increasing concerns on their ethical performance, such as fairness. Unfortunately, model fairness and accuracy in many cases are contradictory goals to optimize. To solve this issue, there has been a number of work trying to improve model fairness by using an adversarial game in model level. This approach introduces an adversary that evaluates the fairness of a model besides its prediction accuracy on the main task, and performs joint-optimization to achieve a balanced result. In this paper, we noticed that when performing backward propagation based training, such contradictory phenomenon has shown on individual neuron level. Based on this observation, we propose FairNeuron, a DNN model automatic repairing tool, to mitigate fairness concerns and balance the accuracy-fairness trade-off without introducing another model. It works on detecting neurons with contradictory optimization directions from accuracy and fairness training goals, and achieving a trade-off by selective dropout. Comparing with state-of-the-art methods, our approach is lightweight, making it scalable and more efficient. Our evaluation on 3 datasets shows that FairNeuron can effectively improve all models' fairness while maintaining a stable utility.
翻訳日:2022-04-07 14:20:43 公開日:2022-04-06
# 専門家の残差混合による臨床シーケンス適応の学習

Learning to Adapt Clinical Sequences with Residual Mixture of Experts ( http://arxiv.org/abs/2204.02687v1 )

ライセンス: Link先を確認
Jeong Min Lee and Milos Hauskrecht(参考訳) EHR(Electronic Health Records)における臨床イベントシーケンスは、患者の状態や患者のケアに関する詳細な情報を記録する。 近年、EHRの情報に基づいて定義されたさまざまなタイプの問題を解決する機械学習モデルの開発において、機械学習コミュニティの関心が高まっている。 近年では、rnnやlstmなどのニューラルシーケンシャルモデルが普及し、患者シーケンシャルデータを表現し、そのようなデータに基づいて将来の出来事や結果を予測するための広く応用されたモデルとなった。 しかし、単一の神経シーケンシャルモデルでは、すべての患者の複雑なダイナミクスと、その行動の違いを適切に表現することはできない。 本研究は,Mixture-of-Experts (MoE) アーキテクチャを用いて,一相一相モデルを精製することにより,この制限を軽減することを目的とする。 アーキテクチャは、患者サブ人口をカバーする複数の(専門的な)RNNモデルで構成され、ベースモデルの予測を精査する。 すなわち、スクラッチから専門家RNNモデルを訓練する代わりに、人口全体モデルの違いをモデル化しようとする残留信号に基づいてそれらを定義します。 様々な患者系列の多様性は、rnnからなる複数の専門家によってモデル化される。 特に,MoEをゼロから直接訓練する代わりに,事前学習ベースGRUモデルからの予測信号に基づいてMoEを増強する。 これにより、専門家の混合は単一のベースrnnモデルの(限られた)予測能力に柔軟に適応することができる。 実世界のERHデータに基づく新しいモデルと多変量臨床イベント予測タスクを実験した。 Gated Recurrent Units (GRU)を用いてRNNを実装した。 一つのRNN予測と比較すると, AUPRC統計は4.1%向上した。

Clinical event sequences in Electronic Health Records (EHRs) record detailed information about the patient condition and patient care as they occur in time. Recent years have witnessed increased interest of machine learning community in developing machine learning models solving different types of problems defined upon information in EHRs. More recently, neural sequential models, such as RNN and LSTM, became popular and widely applied models for representing patient sequence data and for predicting future events or outcomes based on such data. However, a single neural sequential model may not properly represent complex dynamics of all patients and the differences in their behaviors. In this work, we aim to alleviate this limitation by refining a one-fits-all model using a Mixture-of-Experts (MoE) architecture. The architecture consists of multiple (expert) RNN models covering patient sub-populations and refining the predictions of the base model. That is, instead of training expert RNN models from scratch we define them on the residual signal that attempts to model the differences from the population-wide model. The heterogeneity of various patient sequences is modeled through multiple experts that consist of RNN. Particularly, instead of directly training MoE from scratch, we augment MoE based on the prediction signal from pretrained base GRU model. With this way, the mixture of experts can provide flexible adaptation to the (limited) predictive power of the single base RNN model. We experiment with the newly proposed model on real-world EHRs data and the multivariate clinical event prediction task. We implement RNN using Gated Recurrent Units (GRU). We show 4.1% gain on AUPRC statistics compared to a single RNN prediction.
翻訳日:2022-04-07 14:20:23 公開日:2022-04-06
# データ中心型グリーンAI:探索的研究

Data-Centric Green AI: An Exploratory Empirical Study ( http://arxiv.org/abs/2204.02766v1 )

ライセンス: Link先を確認
Roberto Verdecchia, Lu\'is Cruz, June Sallou, Michelle Lin, James Wickenden, Estelle Hotellier(参考訳) 大規模データセットの可用性が向上し、安価なストレージと計算能力の普及により、AIが消費するエネルギーが懸念されている。 この問題に対処するため、近年、モデルトレーニング戦略をチューニングすることでaiエネルギー効率をどのように改善できるかを実証する研究が進められている。 それでも、データセットへの修正がAIのエネルギー消費に与える影響は、まだ未解決の問題である。 このギャップを埋めるために、この探索研究において、AIエネルギー効率を向上させるためにデータ中心のアプローチを利用できるかどうかを評価する。 目的を達成するために,6つの異なるaiアルゴリズム,5,574個のデータポイントからなるデータセット,2つのデータセット(データポイント数と特徴数)を考慮した実験を行った。 以上の結果から,データセットの修正を排他的に行うことで,エネルギー消費量が劇的に減少する(最大92.16%)ことが判明した。 追加的な導入結果として,使用するアルゴリズムを排他的に変更することで,最大2桁までの省エネルギーを実現する方法を示す。 結論として、この探索的調査は、aiエネルギー効率を改善するためにデータ中心の技術を適用することの重要性を実証的に示している。 我々の研究成果は、グリーンAIのさらなる有効化と民主化を目的として、データ中心の技術に焦点を当てた研究課題を求めている。

With the growing availability of large-scale datasets, and the popularization of affordable storage and computational capabilities, the energy consumed by AI is becoming a growing concern. To address this issue, in recent years, studies have focused on demonstrating how AI energy efficiency can be improved by tuning the model training strategy. Nevertheless, how modifications applied to datasets can impact the energy consumption of AI is still an open question. To fill this gap, in this exploratory study, we evaluate if data-centric approaches can be utilized to improve AI energy efficiency. To achieve our goal, we conduct an empirical experiment, executed by considering 6 different AI algorithms, a dataset comprising 5,574 data points, and two dataset modifications (number of data points and number of features). Our results show evidence that, by exclusively conducting modifications on datasets, energy consumption can be drastically reduced (up to 92.16%), often at the cost of a negligible or even absent accuracy decline. As additional introductory results, we demonstrate how, by exclusively changing the algorithm used, energy savings up to two orders of magnitude can be achieved. In conclusion, this exploratory investigation empirically demonstrates the importance of applying data-centric techniques to improve AI energy efficiency. Our results call for a research agenda that focuses on data-centric techniques, to further enable and democratize Green AI.
翻訳日:2022-04-07 14:19:58 公開日:2022-04-06
# 平均ケースエントロピー独立性によるスパンディングツリーの最適部分線形サンプリングと行列点過程

Optimal Sublinear Sampling of Spanning Trees and Determinantal Point Processes via Average-Case Entropic Independence ( http://arxiv.org/abs/2204.02570v1 )

ライセンス: Link先を確認
Nima Anari, Yang P. Liu, Thuy-Duong Vuong(参考訳) 我々は,ランダムスパンディングツリー分布と行列点過程を含む強いレイリー分布から繰り返しサンプリングする高速アルゴリズムを設計した。 グラフ $G=(V, E)$ に対して、$G$ in $\widetilde{O}(\lvert V\rvert)$ サンプル当たりの時間と初期 $\widetilde{O}(\lvert E\rvert)$ 時間前処理の後に、一様にランダムに散らばる木を概算する方法を示す。 n$ 要素の基底集合の $k$ の部分集合上の決定論的点過程に対して、最初の $\widetilde{o}(nk^{\omega-1})$ 時間前処理の後に $\widetilde{o}(k^\omega)$ で概ねサンプルする方法を示し、ここで $\omega<2.372864$ を行列乗算指数とする。 行列点過程から1つのサンプルを得るための art の状態を、以前の $\widetilde{o}(\min\{nk^2, n^\omega\})$ から $\widetilde{o}(nk^{\omega-1})$ まで改善する。 主な技術的結果として、強いレイリー分布に対する領域スペーシフィケーションの最適限界が達成される。 ドメインスペーシングでは、$\mu$ on $\binom{[n]}{k}$からのサンプリングは、$\binom{[t]}{k}$ for $t\ll n$の関連するディストリビューションからのサンプリングに還元される。 強いレイリー分布に対して、最適な $t=\widetilde{O}(k)$ が得られることを示す。 我々の削減には、$\widetilde{O}(1)$の領域分離分布のサンプリングが伴う。 境界点へのアクセスは、連続分布の平均と共分散にアクセスすることや、分布の「異方性」を知ることと似ており、カンナン・ロフ・アシュ・シモノヴィッツ(KLS)予想とそれに基づく最適なサンプリング器の背景にある重要な仮定である。 我々は, 離散的強レイリー測度に対するkls予想とそのサンプリング結果のモラル類似性として, 本結果を考察する。

We design fast algorithms for repeatedly sampling from strongly Rayleigh distributions, which include random spanning tree distributions and determinantal point processes. For a graph $G=(V, E)$, we show how to approximately sample uniformly random spanning trees from $G$ in $\widetilde{O}(\lvert V\rvert)$ time per sample after an initial $\widetilde{O}(\lvert E\rvert)$ time preprocessing. For a determinantal point process on subsets of size $k$ of a ground set of $n$ elements, we show how to approximately sample in $\widetilde{O}(k^\omega)$ time after an initial $\widetilde{O}(nk^{\omega-1})$ time preprocessing, where $\omega<2.372864$ is the matrix multiplication exponent. We even improve the state of the art for obtaining a single sample from determinantal point processes, from the prior runtime of $\widetilde{O}(\min\{nk^2, n^\omega\})$ to $\widetilde{O}(nk^{\omega-1})$. In our main technical result, we achieve the optimal limit on domain sparsification for strongly Rayleigh distributions. In domain sparsification, sampling from a distribution $\mu$ on $\binom{[n]}{k}$ is reduced to sampling from related distributions on $\binom{[t]}{k}$ for $t\ll n$. We show that for strongly Rayleigh distributions, we can can achieve the optimal $t=\widetilde{O}(k)$. Our reduction involves sampling from $\widetilde{O}(1)$ domain-sparsified distributions, all of which can be produced efficiently assuming convenient access to approximate overestimates for marginals of $\mu$. Having access to marginals is analogous to having access to the mean and covariance of a continuous distribution, or knowing "isotropy" for the distribution, the key assumption behind the Kannan-Lov\'asz-Simonovits (KLS) conjecture and optimal samplers based on it. We view our result as a moral analog of the KLS conjecture and its consequences for sampling, for discrete strongly Rayleigh measures.
翻訳日:2022-04-07 14:18:49 公開日:2022-04-06
# VNIbCReg: VIbCRegによる非定常地震信号時系列の評価

VNIbCReg: VIbCReg with Neighboring-Invarian ce and better-Covariance Evaluated on Non-stationary Seismic Signal Time Series ( http://arxiv.org/abs/2204.02697v1 )

ライセンス: Link先を確認
Daesoo Lee, Erlend Aune, Nad\`ege Langet, and Jo Eidsvik(参考訳) 最新の自己教師付き学習(SSL)手法であるVICRegは線形評価と微調整評価の両方において優れた性能を示した。 しかし、VICRegはコンピュータビジョンにおいて提案され、分散と共分散損失による表現空間を維持しながら、画像のランダムな作物の表現を引いて学習する。 しかし、VICRegは、入力の異なる部分/クロップが非定常性を考えるために異なるエンコードされるような非定常時系列では効果がない。 もうひとつの最近のSSL提案であるTNC(Temporal Neighborhood Coding)は、非定常時系列の符号化に有効である。 本研究では,非定常地震信号時系列を評価データセットとして使用する非定常時系列上で,VICReg方式とTNCの組み合わせがSSLに非常に有効であることを示す。

One of the latest self-supervised learning (SSL) methods, VICReg, showed a great performance both in the linear evaluation and the fine-tuning evaluation. However, VICReg is proposed in computer vision and it learns by pulling representations of random crops of an image while maintaining the representation space by the variance and covariance loss. However, VICReg would be ineffective on non-stationary time series where different parts/crops of input should be differently encoded to consider the non-stationarity. Another recent SSL proposal, Temporal Neighborhood Coding (TNC) is effective for encoding non-stationary time series. This study shows that a combination of a VICReg-style method and TNC is very effective for SSL on non-stationary time series, where a non-stationary seismic signal time series is used as an evaluation dataset.
翻訳日:2022-04-07 14:17:47 公開日:2022-04-06
# CAIPIの実践 : 説明可能な医用画像分類を目指して

CAIPI in Practice: Towards Explainable Interactive Medical Image Classification ( http://arxiv.org/abs/2204.02661v1 )

ライセンス: Link先を確認
Emanuel Slany, Yannik Ott, Stephan Scheele, Jan Paulus, Ute Schmid(参考訳) 決定を説明できない医師を信頼していただけませんか。 機械学習を用いた医療診断は、過去10年間で非常に重要になった。 しかし、さらなる強化がなければ、最先端の機械学習手法は医療応用には適さない。 最も重要な理由はデータセットの品質の不足とディープラーニングモデルのような機械学習アルゴリズムのブラックボックス動作である。 したがって、エンドユーザはモデルの決定と対応する説明を修正できない。 後者は、医療分野における機械学習の信頼性に不可欠である。 研究分野は、双方の欠点に対処する手法を対話型機械学習で探索する。 本稿では,説明可能かつインタラクティブなcaipiアルゴリズムを拡張し,画像分類のためのヒューマン・イン・ザ・ループアプローチを単純化するインタフェースを提供する。 このインタフェースにより、エンドユーザー(1)はモデルの予測と説明を調査し、(2)修正し、(3)データセットの品質に影響を与えることができる。 caipiの最適化では、1イテレーションに1つの反例しか持たないが、モデルでは医療用mnistに$97.48\%、ファッションmnistに$95.02\%の精度が得られる。 この精度は、最先端のディープラーニング最適化手順にほぼ等しい。 さらに、CAIPIはラベリングの労力を約80\%のコストで削減する。

Would you trust physicians if they cannot explain their decisions to you? Medical diagnostics using machine learning gained enormously in importance within the last decade. However, without further enhancements many state-of-the-art machine learning methods are not suitable for medical application. The most important reasons are insufficient data set quality and the black-box behavior of machine learning algorithms such as Deep Learning models. Consequently, end-users cannot correct the model's decisions and the corresponding explanations. The latter is crucial for the trustworthiness of machine learning in the medical domain. The research field explainable interactive machine learning searches for methods that address both shortcomings. This paper extends the explainable and interactive CAIPI algorithm and provides an interface to simplify human-in-the-loop approaches for image classification. The interface enables the end-user (1) to investigate and (2) to correct the model's prediction and explanation, and (3) to influence the data set quality. After CAIPI optimization with only a single counterexample per iteration, the model achieves an accuracy of $97.48\%$ on the Medical MNIST and $95.02\%$ on the Fashion MNIST. This accuracy is approximately equal to state-of-the-art Deep Learning optimization procedures. Besides, CAIPI reduces the labeling effort by approximately $80\%$.
翻訳日:2022-04-07 14:16:56 公開日:2022-04-06
# PAGP:偏微分方程式の前方および逆問題に対する能動的学習を伴う物理学支援ガウス過程フレームワーク

PAGP: A physics-assisted Gaussian process framework with active learning for forward and inverse problems of partial differential equations ( http://arxiv.org/abs/2204.02583v1 )

ライセンス: Link先を確認
Jiahao Zhang, Shiqi Zhang, Guang Lin(参考訳) 本研究では,偏微分方程式(pdes)に与えられた物理情報を組み込んだガウス過程回帰(gpr)モデルを開発した。 このモデルのターゲットは、解を見つけるか、初期条件と境界条件で与えられたPDEの未知の係数を発見するという2つのタイプの問題に分けることができる。 連続時間、離散時間、ハイブリッドモデルという3つの異なるモデルを紹介します。 与えられた物理情報は、設計したGP損失関数を通してガウス過程モデルに統合される。 本論文では,標準gpモデルを訓練するための2つの異なるアプローチに基づき,損失関数を3種類提供する。 論文の第1部では,時間領域を空間領域として扱う連続時間モデルについて紹介する。 与えられたPDEの未知係数は、設計された損失関数を最小化することによりGPハイパーパラメータと共に学習することができる。 離散時間モデルでは、まず時間的領域を離散化する時間的離散化スキームを選択する。 そして、PAGPモデルが各タイミングで適用され、最後に与えられたテストポイントでPDE解を近似するスキームと共に適用される。 この設定で未知の係数を発見するには、2つの特定の時間での観測が必要であり、最適係数を得るために混合平均二乗誤差関数を構築する。 最後に,連続時間モデルと離散時間モデルを組み合わせた新しいハイブリッドモデルを提案する。 連続時間モデルの柔軟性と離散時間モデルの精度をマージします。 GP損失関数の異なるモデルを選択する際の性能についても論じる。 提案するpagp法の有効性を数値的に示す。

In this work, a Gaussian process regression(GPR) model incorporated with given physical information in partial differential equations(PDEs) is developed: physics-assisted Gaussian processes(PAGP). The targets of this model can be divided into two types of problem: finding solutions or discovering unknown coefficients of given PDEs with initial and boundary conditions. We introduce three different models: continuous time, discrete time and hybrid models. The given physical information is integrated into Gaussian process model through our designed GP loss functions. Three types of loss function are provided in this paper based on two different approaches to train the standard GP model. The first part of the paper introduces the continuous time model which treats temporal domain the same as spatial domain. The unknown coefficients in given PDEs can be jointly learned with GP hyper-parameters by minimizing the designed loss function. In the discrete time models, we first choose a time discretization scheme to discretize the temporal domain. Then the PAGP model is applied at each time step together with the scheme to approximate PDE solutions at given test points of final time. To discover unknown coefficients in this setting, observations at two specific time are needed and a mixed mean square error function is constructed to obtain the optimal coefficients. In the last part, a novel hybrid model combining the continuous and discrete time models is presented. It merges the flexibility of continuous time model and the accuracy of the discrete time model. The performance of choosing different models with different GP loss functions is also discussed. The effectiveness of the proposed PAGP methods is illustrated in our numerical section.
翻訳日:2022-04-07 14:16:38 公開日:2022-04-06
# パラフレーズ生成によるクイックスタートダイアログシステム

Quick Starting Dialog Systems with Paraphrase Generation ( http://arxiv.org/abs/2204.02546v1 )

ライセンス: Link先を確認
Louis Marceau, Raouf Belbahar, Marc Queudot, Eric Charton, Marie-Jean Meurs(参考訳) ダイアログシステムの堅牢性を改善するためのトレーニングデータを取得するのは、非常に長いプロセスです。 本研究では,パラフレーズ生成を用いて,既存の例からより多くのデータを人工的に生成することで,対話エージェント作成のコストと労力を削減する手法を提案する。 提案手法は,人間の努力がほとんどないダイアログシステムを起動し,実際のエンドユーザーとの対話を可能にするのに十分なレベルの性能を実現する。 ニューラルマシン翻訳とトランスフォーマーベースのseq2seqモデルという2つのニューラルパラフレージングアプローチを実験した。 クラウドソースの公開意図分類データセットと企業対話システムデータセットの2つのデータセットを英語とフランス語で比較した。 提案手法は,両データセットにおける意図分類モデルの一般化能力を高め,新たなダイアログシステムの初期化に必要な労力を削減し,この技術を組織内で大規模に展開する上で有効であることを示す。

Acquiring training data to improve the robustness of dialog systems can be a painstakingly long process. In this work, we propose a method to reduce the cost and effort of creating new conversational agents by artificially generating more data from existing examples, using paraphrase generation. Our proposed approach can kick-start a dialog system with little human effort, and brings its performance to a level satisfactory enough for allowing actual interactions with real end-users. We experimented with two neural paraphrasing approaches, namely Neural Machine Translation and a Transformer-based seq2seq model. We present the results obtained with two datasets in English and in French:~a crowd-sourced public intent classification dataset and our own corporate dialog system dataset. We show that our proposed approach increased the generalization capabilities of the intent classification model on both datasets, reducing the effort required to initialize a new dialog system and helping to deploy this technology at scale within an organization.
翻訳日:2022-04-07 14:16:20 公開日:2022-04-06
# C3KG: 中国の常識会話知識グラフ

C3KG: A Chinese Commonsense Conversation Knowledge Graph ( http://arxiv.org/abs/2204.02549v1 )

ライセンス: Link先を確認
Dawei Li and Yanran Li and Jiayi Zhang and Ke Li and Chen Wei and Jianwei Cui and Bin Wang(参考訳) 既存のコモンセンス知識ベースは、しばしば孤立した方法でタプルを編成するが、これは次のステップを計画するためのコモンセンスの会話モデルには不十分である。 このギャップを埋めるために,多変量多変量対話コーパスを収集し,ソーシャル・コモンセンス知識と対話フロー情報を組み合わせた最初の中国語コモンセンス会話知識グラフを作成する。 グラフのポテンシャルを示すため、グラフ対話マッチング手法を開発し、2つのグラフ基底会話タスクをベンチマークする。

Existing commonsense knowledge bases often organize tuples in an isolated manner, which is deficient for commonsense conversational models to plan the next steps. To fill the gap, we curate a large-scale multi-turn human-written conversation corpus, and create the first Chinese commonsense conversation knowledge graph which incorporates both social commonsense knowledge and dialog flow information. To show the potential of our graph, we develop a graph-conversation matching approach, and benchmark two graph-grounded conversational tasks.
翻訳日:2022-04-07 14:16:04 公開日:2022-04-06
# 多言語事前学習モデルによる構造化プルーニング:設定,アルゴリズム,効率性

Probing Structured Pruning on Multilingual Pre-trained Models: Settings, Algorithms, and Efficiency ( http://arxiv.org/abs/2204.02601v1 )

ライセンス: Link先を確認
Yanyang Li, Fuli Luo, Runxin Xu, Songfang Huang, Fei Huang, Liwei Wang(参考訳) 構造化プルーニングはモノリンガル事前訓練言語モデルで広く研究されており、その多言語モデルについてはまだ十分に評価されていない。 本研究は,多言語事前学習言語モデルにおける構造的プルーニングの3つの側面,設定,アルゴリズム,効率について検討する。 9つの下流タスクにおける実験は、いくつかの直観に反する現象を示している: 設定において、各言語を個別に刈り取ることは、より良い結果をもたらすことはない; アルゴリズムにとって最も単純な方法が最善を尽くす; 効率のために、速いモデルは、それが小さいことを暗示しない。 すべての疎度レベルの比較を容易にするために、動的スパーシフィケーション(Dynamic Sparsification)という、モデルを一度トレーニングし、推論時に異なるモデルサイズに適応できるシンプルなアプローチを提案する。 この研究が、多言語事前学習モデルにおける構造化プルーニング研究のギャップを埋め、将来の研究に光を当てることを願っている。

Structured pruning has been extensively studied on monolingual pre-trained language models and is yet to be fully evaluated on their multilingual counterparts. This work investigates three aspects of structured pruning on multilingual pre-trained language models: settings, algorithms, and efficiency. Experiments on nine downstream tasks show several counter-intuitive phenomena: for settings, individually pruning for each language does not induce a better result; for algorithms, the simplest method performs the best; for efficiency, a fast model does not imply that it is also small. To facilitate the comparison on all sparsity levels, we present Dynamic Sparsification, a simple approach that allows training the model once and adapting to different model sizes at inference. We hope this work fills the gap in the study of structured pruning on multilingual pre-trained models and sheds light on future research.
翻訳日:2022-04-07 14:15:54 公開日:2022-04-06
# 千人の目の中に何千ものハムレットがある: 知識に基づく対話を個人記憶で強化する

There Are a Thousand Hamlets in a Thousand People's Eyes: Enhancing Knowledge-grounded Dialogue with Personal Memory ( http://arxiv.org/abs/2204.02624v1 )

ライセンス: Link先を確認
Tingchen Fu, Xueliang Zhao, Chongyang Tao, Ji-Rong Wen, Rui Yan(参考訳) KGC(Knowledge-ground ed conversation)は、有能で知識に富んだチャットボットを構築する上で大きな可能性を示し、その重要な要素は知識選択である。 しかし,従来の知識選択方法は,年齢,趣味,教育,生活経験が,外的知識よりも個人の好みに大きく影響しているという事実を無視して,知識と対話の文脈の関連性にのみ焦点を絞っている。 パーソナライゼーションの問題を考慮することなく、適切な知識を選択してペルソナ一貫性のある応答を生成することは困難である。 本研究では,個人化問題に対処するため,KGCにおける知識選択にパーソナルメモリを導入する。 そこで本研究では,個人の記憶と知識の選択との関係をモデル化する変分法を提案し,個人の記憶から知識への前方マッピングとその逆マッピングを閉じたループに含めて相互に教える学習方式を提案する。 実験の結果,提案手法は自動評価と人的評価の両方において既存のKGC法よりも優れていた。

Knowledge-grounded conversation (KGC) shows great potential in building an engaging and knowledgeable chatbot, and knowledge selection is a key ingredient in it. However, previous methods for knowledge selection only concentrate on the relevance between knowledge and dialogue context, ignoring the fact that age, hobby, education and life experience of an interlocutor have a major effect on his or her personal preference over external knowledge. Without taking the personalization issue into account, it is difficult to select the proper knowledge and generate persona-consistent responses. In this work, we introduce personal memory into knowledge selection in KGC to address the personalization issue. We propose a variational method to model the underlying relationship between one's personal memory and his or her selection of knowledge, and devise a learning scheme in which the forward mapping from personal memory to knowledge and its inverse mapping is included in a closed loop so that they could teach each other. Experiment results show that our method outperforms existing KGC methods significantly on both automatic evaluation and human evaluation.
翻訳日:2022-04-07 14:15:36 公開日:2022-04-06
# 非スケジュール・絶滅危惧言語のための言語資源と技術

Language Resources and Technologies for Non-Scheduled and Endangered Indian Languages ( http://arxiv.org/abs/2204.02822v1 )

ライセンス: Link先を確認
Ritesh Kumar, Bornini Lahiri(参考訳) 本稿では、インドにおける非スケジュール言語および絶滅危惧言語で利用可能な言語資源と技術について調査する。 インドにおける言語数については、様々な情報源から異なる推定がなされているが、現在インドで話されている言語は1000以上あると推測できる。 しかし、インド憲法第8条(予定言語と呼ばれる)に含まれる22の言語の一部を禁止しているため、他の言語には実質的な資源や技術はほとんど存在しない。 それにもかかわらず、各国の異なる言語のためのリソースや技術を開発する試みがいくつかある。 遅かれ早かれ、いくつかの財政的サポートが絶滅危惧言語で利用可能になった。 本稿では,インド憲法第8条に規定されていないインド諸言語の資源と技術について概説する。

In the present paper, we will present a survey of the language resources and technologies available for the non-scheduled and endangered languages of India. While there have been different estimates from different sources about the number of languages in India, it could be assumed that there are more than 1,000 languages currently being spoken in India. However barring some of the 22 languages included in the 8th Schedule of the Indian Constitution (called the scheduled languages), there is hardly any substantial resource or technology available for the rest of the languages. Nonetheless there have been some individual attempts at developing resources and technologies for the different languages across the country. Of late, some financial support has also become available for the endangered languages. In this paper, we give a summary of the resources and technologies for those Indian languages which are not included in the 8th schedule of the Indian Constitution and/or which are endangered.
翻訳日:2022-04-07 14:15:15 公開日:2022-04-06
# 任意論理における推論に対する対立学習

Adversarial Learning to Reason in an Arbitrary Logic ( http://arxiv.org/abs/2204.02737v1 )

ライセンス: Link先を確認
Stanis{\l}aw J. Purga{\l} and Cezary Kaliszyk(参考訳) 定理を証明するための既存のアプローチは、特定の論理とデータセットに焦点を当てている。 本研究では,人的知識や問題セットを使わずに任意の論理で動作可能な強化学習によって導かれるモンテカルロシミュレーションを提案する。 アルゴリズムはトレーニングデータセットを必要としないので、利用可能な証明や推測の集まりがなくても、いかなる論理的な基盤とも連携することを学べる。 複数の論理系におけるアプローチの実現可能性を示す。 この手法はランダムに生成されたデータのトレーニングよりも強いが、調整された公理と予想セットで訓練されたアプローチよりも弱い。 しかし、直観主義論理や線形論理など、これまでにそのような試みが試みられていない多くの論理に対する自動定理証明に機械学習を適用することができる。

Existing approaches to learning to prove theorems focus on particular logics and datasets. In this work, we propose Monte-Carlo simulations guided by reinforcement learning that can work in an arbitrarily specified logic, without any human knowledge or set of problems. Since the algorithm does not need any training dataset, it is able to learn to work with any logical foundation, even when there is no body of proofs or even conjectures available. We practically demonstrate the feasibility of the approach in multiple logical systems. The approach is stronger than training on randomly generated data but weaker than the approaches trained on tailored axiom and conjecture sets. It however allows us to apply machine learning to automated theorem proving for many logics, where no such attempts have been tried to date, such as intuitionistic logic or linear logic.
翻訳日:2022-04-07 14:13:38 公開日:2022-04-06
# 一般化意味セグメンテーションのためのスタイル幻覚二重一貫性学習

Style-Hallucinated Dual Consistency Learning for Domain Generalized Semantic Segmentation ( http://arxiv.org/abs/2204.02548v1 )

ライセンス: Link先を確認
Yuyang Zhao, Zhun Zhong, Na Zhao, Nicu Sebe, Gim Hee Lee(参考訳) 本稿では,合成データのみを用いて,現実のシーンに頑健なモデルを学ぶことを目的とした,合成から現実への一般化セマンティックセマンティックセマンティックセマンティクスの課題について検討する。 合成と実世界のデータ間の大きなドメインシフトは、限られたソース環境の変化や、合成と実世界のデータ間の大きな分散ギャップを含む、目に見えない実世界のシーンでのモデルパフォーマンスを著しく妨げます。 本稿では,このようなドメインシフトを扱うためのスタイル幻覚型2重一貫性学習(shade)フレームワークを提案する。 具体的には、SHADEはStyle Consistency(SC)とRetrospection Consistency(RC)という2つの一貫性の制約に基づいて構築される。 SCはソースの状況を強化し、スタイルの異なるサンプル間で一貫性のある表現を学ぶようモデルに促す。 RCは実世界の知識を活用して、モデルが合成データに過度に適合することを防ぐ。 さらに,一貫した学習に欠かせないスタイル多様性サンプルを生成する新しいスタイル幻覚モジュール(SHM)を提案する。 SHMはソース分布からベーススタイルを選択し、トレーニング中に多様なリアルなサンプルを動的に生成できる。 実験の結果,SHADEは,実世界の3つのデータセットの平均mIoUに対してそれぞれ5.07%,8.35%向上し,最先端の手法よりも優れていた。

In this paper, we study the task of synthetic-to-real domain generalized semantic segmentation, which aims to learn a model that is robust to unseen real-world scenes using only synthetic data. The large domain shift between synthetic and real-world data, including the limited source environmental variations and the large distribution gap between synthetic and real-world data, significantly hinders the model performance on unseen real-world scenes. In this work, we propose the Style-HAllucinated Dual consistEncy learning (SHADE) framework to handle such domain shift. Specifically, SHADE is constructed based on two consistency constraints, Style Consistency (SC) and Retrospection Consistency (RC). SC enriches the source situations and encourages the model to learn consistent representation across style-diversified samples. RC leverages real-world knowledge to prevent the model from overfitting to synthetic data and thus largely keeps the representation consistent between the synthetic and real-world models. Furthermore, we present a novel style hallucination module (SHM) to generate style-diversified samples that are essential to consistency learning. SHM selects basis styles from the source distribution, enabling the model to dynamically generate diverse and realistic samples during training. Experiments show that our SHADE yields significant improvement and outperforms state-of-the-art methods by 5.07% and 8.35% on the average mIoU of three real-world datasets on single- and multi-source settings respectively.
翻訳日:2022-04-07 14:13:28 公開日:2022-04-06
# rodd:ロバストな分散検出のための自己教師付きアプローチ

RODD: A Self-Supervised Approach for Robust Out-of-Distribution Detection ( http://arxiv.org/abs/2204.02553v1 )

ライセンス: Link先を確認
Umar Khalid, Ashkan Esmaeili, Nazmul Karim, Nazanin Rahnavard(参考訳) 近年の研究では、ディープラーニング(DL)モデルの安全なデプロイにおいて、OOD(out-of-distriion )サンプルの検出と拒絶が大きな課題となっている。 dlモデルはood検出の駆動原理を補強する分布内(id)データに対してのみ自信を持つことが望まれる。 本稿では,分布外データセットに依存しない簡易かつ効果的なood検出手法を提案する。 提案手法は,コンパクトな低次元空間上に埋没するトレーニングサンプルの自己教師型特徴学習に依存する。 自己教師型対向学習がモデル強化に有効であることを示す最近の研究により、自己教師型対向学習を用いた事前訓練モデルが潜在空間における一次元特徴学習により良いモデルをもたらすことを実証的に示す。 本研究で提案する手法は,OOD検出タスクのベンチマークデータセットの広範なスイートにおいて,SOTA検出性能に優れる,‘texttt{RODD}’と呼ばれる。 CIFAR-100ベンチマークでは、SOTA法と比較して26.97$\%$低い偽陽性率(FPR@95)を達成する。

Recent studies have addressed the concern of detecting and rejecting the out-of-distribution (OOD) samples as a major challenge in the safe deployment of deep learning (DL) models. It is desired that the DL model should only be confident about the in-distribution (ID) data which reinforces the driving principle of the OOD detection. In this paper, we propose a simple yet effective generalized OOD detection method independent of out-of-distribution datasets. Our approach relies on self-supervised feature learning of the training samples, where the embeddings lie on a compact low-dimensional space. Motivated by the recent studies that show self-supervised adversarial contrastive learning helps robustify the model, we empirically show that a pre-trained model with self-supervised contrastive learning yields a better model for uni-dimensional feature learning in the latent space. The method proposed in this work referred to as \texttt{RODD}, outperforms SOTA detection performance on an extensive suite of benchmark datasets on OOD detection tasks. On the CIFAR-100 benchmarks, \texttt{RODD} achieves a 26.97 $\%$ lower false-positive rate (FPR@95) compared to SOTA methods.
翻訳日:2022-04-07 14:10:29 公開日:2022-04-06
# mixformer: windowsとディメンションにまたがる機能を混ぜる

MixFormer: Mixing Features across Windows and Dimensions ( http://arxiv.org/abs/2204.02557v1 )

ライセンス: Link先を確認
Qiang Chen, Qiman Wu, Jian Wang, Qinghao Hu, Tao Hu, Errui Ding, Jian Cheng, Jingdong Wang(参考訳) ローカルウィンドウの自己照準は視覚タスクで特に機能するが、受容野と弱いモデリング能力の問題に苦しむ。 これは主に、オーバーラップされていないウィンドウ内で自己注意を行い、チャネル次元に重みを共有するためである。 解決策を見つけるためにmixformerを提案する。 まず, 局所ウインド自足と深さ方向畳み込みを並列設計で組み合わせ, 受容場を拡大するためにクロスウインド接続をモデル化する。 第2に,分岐間の双方向相互作用を提案し,チャネルと空間次元の補足的な手がかりを提供する。 これら2つの設計は、ウィンドウと寸法の効率的な混合を実現するために統合されている。 私たちのMixFormerは、EfficientNetによる画像分類の競合結果を提供し、RegNetやSwin Transformerよりも優れた結果を示している。 下流タスクのパフォーマンスは、MS COCO、ADE20k、LVISの5つの密集予測タスクにおいて、計算コストの削減とともに、その代替案よりも大幅に向上する。 コードは \url{https://github.com/P addlePaddle/PaddleCl as} で入手できる。

While local-window self-attention performs notably in vision tasks, it suffers from limited receptive field and weak modeling capability issues. This is mainly because it performs self-attention within non-overlapped windows and shares weights on the channel dimension. We propose MixFormer to find a solution. First, we combine local-window self-attention with depth-wise convolution in a parallel design, modeling cross-window connections to enlarge the receptive fields. Second, we propose bi-directional interactions across branches to provide complementary clues in the channel and spatial dimensions. These two designs are integrated to achieve efficient feature mixing among windows and dimensions. Our MixFormer provides competitive results on image classification with EfficientNet and shows better results than RegNet and Swin Transformer. Performance in downstream tasks outperforms its alternatives by significant margins with less computational costs in 5 dense prediction tasks on MS COCO, ADE20k, and LVIS. Code is available at \url{https://github.com/P addlePaddle/PaddleCl as}.
翻訳日:2022-04-07 14:10:10 公開日:2022-04-06
# FocalClick: インタラクティブなイメージセグメンテーションの実現に向けて

FocalClick: Towards Practical Interactive Image Segmentation ( http://arxiv.org/abs/2204.02574v1 )

ライセンス: Link先を確認
Xi Chen, Zhiyan Zhao, Yilei Zhang, Manni Duan, Donglian Qi, Hengshuang Zhao(参考訳) インタラクティブセグメンテーションでは、ポジティブ/ネガティブクリックによってターゲットマスクを抽出することができる。 ひとつは、既存のモデルは低消費電力装置で作業するのに十分な効率性がないこと、もうひとつは、既存のマスクを磨く際には、正しい部分を破壊するのを防げないため、性能が良くないことである。 FocalClickは、ローカライズされた領域でマスクを予測および更新することで、両方の問題を同時に解決する。 高い効率性を得るために、画像全体の遅い予測を小さな作物の2つの高速な推論に分解する:ターゲット作物の粗い部分分割とフォーカス作物の局所的な精細化である。 既存のマスクでモデルを動作させるため,インタラクティブマスク補正と呼ばれるサブタスクを定式化し,プログレッシブマージを解法として提案する。 プログレッシブマージ(Progressive Merge)は、形態情報を利用して、保存場所と更新場所を決定することで、既存のマスクを効果的に洗練することができる。 FocalClickは、FLOPをはるかに小さくしたSOTA法と競合する結果を得る。 また、既存のマスクに補正を行う際にも顕著な優位性を示す。 コードとデータはgithub.com/XavierCHE N34/ClickSEGで公開される

Interactive segmentation allows users to extract target masks by making positive/negative clicks. Although explored by many previous works, there is still a gap between academic approaches and industrial needs: first, existing models are not efficient enough to work on low power devices; second, they perform poorly when used to refine preexisting masks as they could not avoid destroying the correct part. FocalClick solves both issues at once by predicting and updating the mask in localized areas. For higher efficiency, we decompose the slow prediction on the entire image into two fast inferences on small crops: a coarse segmentation on the Target Crop, and a local refinement on the Focus Crop. To make the model work with preexisting masks, we formulate a sub-task termed Interactive Mask Correction, and propose Progressive Merge as the solution. Progressive Merge exploits morphological information to decide where to preserve and where to update, enabling users to refine any preexisting mask effectively. FocalClick achieves competitive results against SOTA methods with significantly smaller FLOPs. It also shows significant superiority when making corrections on preexisting masks. Code and data will be released at github.com/XavierCHE N34/ClickSEG
翻訳日:2022-04-07 14:09:53 公開日:2022-04-06
# 動的文脈除去による未来予測の学習

Learning to Anticipate Future with Dynamic Context Removal ( http://arxiv.org/abs/2204.02587v1 )

ライセンス: Link先を確認
Xinyu Xu, Yong-Lu Li, Cewu Lu(参考訳) 将来のイベントを予想することは、インテリジェントシステムと組み込みAIにとって不可欠な機能である。 しかし、従来の認識課題に比べ、将来の不確実性や推論能力要件は予測課題を非常に困難にし、解決に至らなかった。 この申請では、以前の手法はモデルアーキテクチャ設計をより気にするか、あるいは適切な学習ポリシーで予測モデルをトレーニングする方法にはほとんど注意が払われていない。 そこで本研究では,学習過程における観察された未来を動的にスケジュールする動的文脈除去(dcr)と呼ばれる新しい学習手法を提案する。 人型カリキュラム学習プロセス、すなわち、最終的な予測目標を満たすまで、予測難易度を高めるために、イベントコンテキストを徐々に取り除く。 我々の学習方式はプラグアンドプレイであり、トランスフォーマーやLSTMを含む推論モデルを統合することは容易であり、有効性と効率性の両方に利点がある。 広範な実験において,提案手法は,広く使用されている4つのベンチマークで最新技術を実現する。 私たちのコードとモデルはhttps://github.com/A llenXuuu/DCRで公開されています。

Anticipating future events is an essential feature for intelligent systems and embodied AI. However, compared to the traditional recognition task, the uncertainty of future and reasoning ability requirement make the anticipation task very challenging and far beyond solved. In this filed, previous methods usually care more about the model architecture design or but few attention has been put on how to train an anticipation model with a proper learning policy. To this end, in this work, we propose a novel training scheme called Dynamic Context Removal (DCR), which dynamically schedules the visibility of observed future in the learning procedure. It follows the human-like curriculum learning process, i.e., gradually removing the event context to increase the anticipation difficulty till satisfying the final anticipation target. Our learning scheme is plug-and-play and easy to integrate any reasoning model including transformer and LSTM, with advantages in both effectiveness and efficiency. In extensive experiments, the proposed method achieves state-of-the-art on four widely-used benchmarks. Our code and models are publicly released at https://github.com/A llenXuuu/DCR.
翻訳日:2022-04-07 14:09:34 公開日:2022-04-06
# シーングラフ生成のためのきめ細かい述語学習

Fine-Grained Predicates Learning for Scene Graph Generation ( http://arxiv.org/abs/2204.02597v1 )

ライセンス: Link先を確認
Xinyu Lyu and Lianli Gao and Yuyu Guo and Zhou Zhao and Hao Huang and Heng Tao Shen and Jingkuan Song(参考訳) 現在のScene Graph Generationモデルのパフォーマンスは、"woman-on/standing on-beach"や"woman-near/ look at-child"といった、区別が難しい述語によって著しく妨げられている。 一般的なSGGモデルは、頭部の述語を予測する傾向があり、既存の再バランス戦略は尾の分類を好むが、これら区別が難しい述語を適切に扱うことはできない。 そこで本研究では,難解なオブジェクトクラス間の識別に焦点を当てたきめ細かい画像分類から着想を得たFGPL(Fined Predicates Learning)という手法を提案する。 具体的には,SGGモデルによる詳細な述語対の探索を支援するPredicate Latticeを導入する。 そして、述語格子を用いて、認識可能なものよりも学習された識別力を維持しながら、粒度の細かい述語を識別するのに寄与するカテゴリー識別損失とエンティティ識別損失を提案する。 提案するモデル非依存戦略により、3つのベンチマークモデル(transformer, vctree, モチーフ)の性能は、それぞれ、述語分類サブタスクで22.8\%、24.1\%、平均リコール(mr@100)の21.7\%向上する。 当社のモデルは,Visual Genomeデータセット上での最先端メソッド(すなわち,6.1\%,4.6\%,および3.2\%のMean Recall(mR@100))よりも優れています。

The performance of current Scene Graph Generation models is severely hampered by some hard-to-distinguish predicates, e.g., "woman-on/standing on/walking on-beach" or "woman-near/looking at/in front of-child". While general SGG models are prone to predict head predicates and existing re-balancing strategies prefer tail categories, none of them can appropriately handle these hard-to-distinguish predicates. To tackle this issue, inspired by fine-grained image classification, which focuses on differentiating among hard-to-distinguish object classes, we propose a method named Fine-Grained Predicates Learning (FGPL) which aims at differentiating among hard-to-distinguish predicates for Scene Graph Generation task. Specifically, we first introduce a Predicate Lattice that helps SGG models to figure out fine-grained predicate pairs. Then, utilizing the Predicate Lattice, we propose a Category Discriminating Loss and an Entity Discriminating Loss, which both contribute to distinguishing fine-grained predicates while maintaining learned discriminatory power over recognizable ones. The proposed model-agnostic strategy significantly boosts the performances of three benchmark models (Transformer, VCTree, and Motif) by 22.8\%, 24.1\% and 21.7\% of Mean Recall (mR@100) on the Predicate Classification sub-task, respectively. Our model also outperforms state-of-the-art methods by a large margin (i.e., 6.1\%, 4.6\%, and 3.2\% of Mean Recall (mR@100)) on the Visual Genome dataset.
翻訳日:2022-04-07 14:09:17 公開日:2022-04-06
# 変換領域における顔認識

Face recognition in a transformed domain ( http://arxiv.org/abs/2204.02608v1 )

ライセンス: Link先を確認
Marcos Faundez-Zanuy(参考訳) 本稿では,正面画像に基づく生体認証に固有面法(karhunen-loeve transform)の代わりに離散コサイン変換(dct)を用いることを提案する。 実験の結果,認識精度が向上し,計算負担が軽減された。 本稿では,異なる分類器と組み合わせた結果を含む。

This paper proposes the use of a discrete cosine transform (DCT) instead of the eigenfaces method (Karhunen-Loeve Transform) for biometric identification based on frontal face images. Experimental results show better recognition accuracies and reduced computational burden. This paper includes results with different classifiers and a combination of them.
翻訳日:2022-04-07 14:08:43 公開日:2022-04-06
# IterVM: シーンテキスト認識のための反復視覚モデリングモジュール

IterVM: Iterative Vision Modeling Module for Scene Text Recognition ( http://arxiv.org/abs/2204.02630v1 )

ライセンス: Link先を確認
Xiaojie Chu and Yongtao Wang(参考訳) シーンテキスト認識(STR)は、自然画像における不完全な画像条件のために難しい問題である。 最先端の手法は視覚的な手がかりと言語知識の両方を利用してこの問題に取り組む。 具体的には、視覚モデリングモジュール(VM)から繰り返し出力シーケンスを洗練するための反復言語モデリングモジュール(IterLM)を提案する。 有望な結果が得られたが、vision modelingモジュールはこれらのメソッドのパフォーマンスボトルネックになっている。 本稿では,STRの精度を向上させるために,反復視覚モデリングモジュール(IterVM)を提案する。 具体的には、第1のVMは入力画像から直接マルチレベル特徴を抽出し、以下のVMは入力画像からマルチレベル特徴を再抽出し、前のVMから抽出された高レベル(つまり最も意味のある)特徴と融合する。 また,提案したIterVMと反復言語モデリングモジュールを組み合わせることで,IterNetという強力なシーンテキスト認識機能を提案する。 広範な実験により,提案手法は,特に低品質のシーンテキスト画像において,シーン認識精度を大幅に向上できることが証明された。 さらに,提案するシーンテキスト認識システムであるiternetは,いくつかの公開ベンチマークで新たな最先端結果を達成している。 コードはhttps://github.com/V DIGPKU/IterNetで入手できる。

Scene text recognition (STR) is a challenging problem due to the imperfect imagery conditions in natural images. State-of-the-art methods utilize both visual cues and linguistic knowledge to tackle this challenging problem. Specifically, they propose iterative language modeling module (IterLM) to repeatedly refine the output sequence from the visual modeling module (VM). Though achieving promising results, the vision modeling module has become the performance bottleneck of these methods. In this paper, we newly propose iterative vision modeling module (IterVM) to further improve the STR accuracy. Specifically, the first VM directly extracts multi-level features from the input image, and the following VMs re-extract multi-level features from the input image and fuse them with the high-level (i.e., the most semantic one) feature extracted by the previous VM. By combining the proposed IterVM with iterative language modeling module, we further propose a powerful scene text recognizer called IterNet. Extensive experiments demonstrate that the proposed IterVM can significantly improve the scene text recognition accuracy, especially on low-quality scene text images. Moreover, the proposed scene text recognizer IterNet achieves new state-of-the-art results on several public benchmarks. Codes will be available at https://github.com/V DIGPKU/IterNet.
翻訳日:2022-04-07 14:06:55 公開日:2022-04-06
# 画像から画像への翻訳のためのスイス陸軍ナイフ:マルチタスク拡散モデル

The Swiss Army Knife for Image-to-Image Translation: Multi-Task Diffusion Models ( http://arxiv.org/abs/2204.02641v1 )

ライセンス: Link先を確認
Julia Wolleb, Robin Sandk\"uhler, Florentin Bieder, Philippe C. Cattin(参考訳) 近年,様々な画像解析タスクに拡散モデルを適用している。 本稿では,拡散暗黙モデルを用いた画像間翻訳手法を構築し,画像生成を所望の出力に導くための回帰問題とセグメント化問題を含む。 私たちのアプローチの主な利点は、ノイズ処理中のガイダンスが外部勾配によって行われることです。 したがって、同じデータセット上の異なるタスクのために拡散モデルを再トレーニングする必要はない。 本手法は,脳腫瘍進展のシミュレーションのための脳磁気共鳴(MR)画像データセットと同様に,回帰タスクを用いて顔写真の加齢過程をシミュレートするために応用する。 さらに,脳MRI画像の正常スライスにおいて,所望の部位に腫瘍を塗布するためにセグメンテーションモデルを用いる。 我々はすべての問題に対して説得力のある結果を得る。

Recently, diffusion models were applied to a wide range of image analysis tasks. We build on a method for image-to-image translation using denoising diffusion implicit models and include a regression problem and a segmentation problem for guiding the image generation to the desired output. The main advantage of our approach is that the guidance during the denoising process is done by an external gradient. Consequently, the diffusion model does not need to be retrained for the different tasks on the same dataset. We apply our method to simulate the aging process on facial photos using a regression task, as well as on a brain magnetic resonance (MR) imaging dataset for the simulation of brain tumor growth. Furthermore, we use a segmentation model to inpaint tumors at the desired location in healthy slices of brain MR images. We achieve convincing results for all problems.
翻訳日:2022-04-07 14:06:36 公開日:2022-04-06
# Faster-TAD:Unified Networkにおける提案生成と分類による時間的行動検出に向けて

Faster-TAD: Towards Temporal Action Detection with Proposal Generation and Classification in a Unified Network ( http://arxiv.org/abs/2204.02674v1 )

ライセンス: Link先を確認
Shimin Chen, Chen Chen, Wei Li, Xunqiang Tao, Yandong Guo(参考訳) 時間的アクション検出(TAD)は、未トリミングビデオにおけるアクションインスタンスのセマンティックラベルとバウンダリを検出することを目的としている。 現在の主流のアプローチは、効率性と柔軟性に欠けるマルチステップソリューションである。 本稿では,Faster-RCNN のようなアーキテクチャを再構築し,TAD を Faster-TAD と呼ぶ統一ネットワークを提案する。 TADの独特な難しさに対処するため、私たちはオリジナルのフレームワークよりも重要な改善を行いました。 本稿では,新しいコンテキスト適応型提案モジュールと革新的Fake-Proposal Generation Blockを提案する。 さらに、パフォーマンスを改善するためにアトミックアクション機能を使用します。 高速TADはTADのパイプラインを単純化し、ActivityNet-1.3 (40.01% mAP), HACS Segments (38.39% mAP), SoccerNet-Action Spotting (54.09% mAP)など多くのベンチマークで顕著なパフォーマンスを得る。 これは既存の単一ネットワーク検出器を大きなマージンで上回っている。

Temporal action detection (TAD) aims to detect the semantic labels and boundaries of action instances in untrimmed videos. Current mainstream approaches are multi-step solutions, which fall short in efficiency and flexibility. In this paper, we propose a unified network for TAD, termed Faster-TAD, by re-purposing a Faster-RCNN like architecture. To tackle the unique difficulty in TAD, we make important improvements over the original framework. We propose a new Context-Adaptive Proposal Module and an innovative Fake-Proposal Generation Block. What's more, we use atomic action features to improve the performance. Faster-TAD simplifies the pipeline of TAD and gets remarkable performance on lots of benchmarks, i.e., ActivityNet-1.3 (40.01% mAP), HACS Segments (38.39% mAP), SoccerNet-Action Spotting (54.09% mAP). It outperforms existing single-network detector by a large margin.
翻訳日:2022-04-07 14:06:22 公開日:2022-04-06
# SEAL: 時空間局所化のための大規模ビデオデータセット

SEAL: A Large-scale Video Dataset of Multi-grained Spatio-temporally Action Localization ( http://arxiv.org/abs/2204.02688v1 )

ライセンス: Link先を確認
Shimin Chen, Wei Li, Chen Chen, Jianyang Gu, Jiaming Chu, Xunqiang Tao, Yandong Guo(参考訳) 人間の行動認識のための多くのデータセット努力にもかかわらず、現在のコンピュータビジョンアルゴリズムは、人間の日常生活における粗い空間的および時間的アノテーションに制限されている。 本稿では,SEALと呼ばれる大規模ビデオデータセットを多粒度スポース・tエンポラル・アクション・ローカライゼーションのために導入する。 SEALは2種類のアノテーション、SEALチューブとSEALクリップで構成されている。 我々は、原子の作用が多くの複雑な活動に結合できることを観察する。 SEALチューブは、チューブレットレベルでのアトミックアクションと複雑なアクティビティアノテーションの両方を提供し、172のアクションカテゴリにまたがる49.6kの原子アクションと200のアクティビティカテゴリにまたがる17.7kの複雑なアクティビティを生成する。 SEAL Clipsは2秒のクリップで空間内の原子の作用をローカライズし、1人あたりの複数のラベルを持つ510.4kのアクションラベルを生成する。 広汎な実験結果から,SEALは映像理解の促進に有効であることが示唆された。

In spite of many dataset efforts for human action recognition, current computer vision algorithms are still limited to coarse-grained spatial and temporal annotations among human daily life. In this paper, we introduce a novel large-scale video dataset dubbed SEAL for multi-grained Spatio-tEmporal Action Localization. SEAL consists of two kinds of annotations, SEAL Tubes and SEAL Clips. We observe that atomic actions can be combined into many complex activities. SEAL Tubes provide both atomic action and complex activity annotations in tubelet level, producing 49.6k atomic actions spanning 172 action categories and 17.7k complex activities spanning 200 activity categories. SEAL Clips localizes atomic actions in space during two-second clips, producing 510.4k action labels with multiple labels per person. Extensive experimental results show that SEAL significantly helps to advance video understanding.
翻訳日:2022-04-07 14:06:03 公開日:2022-04-06
# コンテンツ認識レイアウト推論による美的テキストロゴ合成

Aesthetic Text Logo Synthesis via Content-aware Layout Inferring ( http://arxiv.org/abs/2204.02701v1 )

ライセンス: Link先を確認
Yizhi Wang, Guo Pu, Wenhan Luo, Yexin Wang, Pengfei Xiong, Hongwen Kang, Zhouhui Lian(参考訳) テキストロゴのデザインはプロのデザイナーの創造性と専門性に大きく依存しており、要素のレイアウトを配置することが最も重要な手順の1つである。 しかし,多くの要因(フォント,言語学,話題など)を考慮に入れる必要があるこの課題にはほとんど注意が払われていない。 本稿では,glyph画像とそれに対応するテキストを入力として,それらに対する美的レイアウトを自動合成するコンテンツ認識レイアウト生成ネットワークを提案する。 具体的には、文字配置軌跡と合成テキストロゴの描画形状の両方を評価するために、シーケンス識別器と画像識別器を含む二重識別器モジュールを開発する。 さらに,テキストから言語情報,グリフからビジュアルセマンティクスを融合してレイアウト予測を指導し,両者がプロのレイアウト設計において重要な役割を担っている。 このアプローチを訓練し評価するために,約3500のテキストロゴイメージとピクセルレベルのアノテーションからなるTextLogo3Kというデータセットを構築した。 このデータセットに関する実験的研究は、視覚的に満足するテキストロゴを合成し、その技術に対する優位性を検証するための手法の有効性を実証している。

Text logo design heavily relies on the creativity and expertise of professional designers, in which arranging element layouts is one of the most important procedures. However, few attention has been paid to this task which needs to take many factors (e.g., fonts, linguistics, topics, etc.) into consideration. In this paper, we propose a content-aware layout generation network which takes glyph images and their corresponding text as input and synthesizes aesthetic layouts for them automatically. Specifically, we develop a dual-discriminator module, including a sequence discriminator and an image discriminator, to evaluate both the character placing trajectories and rendered shapes of synthesized text logos, respectively. Furthermore, we fuse the information of linguistics from texts and visual semantics from glyphs to guide layout prediction, which both play important roles in professional layout design. To train and evaluate our approach, we construct a dataset named as TextLogo3K, consisting of about 3,500 text logo images and their pixel-level annotations. Experimental studies on this dataset demonstrate the effectiveness of our approach for synthesizing visually-pleasing text logos and verify its superiority against the state of the art.
翻訳日:2022-04-07 14:05:49 公開日:2022-04-06
# マスキング・逆境障害:ロバスト・スパース・ネットワークにおける逆境障害の発見

Masking Adversarial Damage: Finding Adversarial Saliency for Robust and Sparse Network ( http://arxiv.org/abs/2204.02738v1 )

ライセンス: Link先を確認
Byung-Kwan Lee, Junho Kim, Yong Man Ro(参考訳) 敵対的な例は、ディープニューラルネットワークの信頼性と潜在的なセキュリティ問題を引き起こす。 敵の頑健性を改善するために、敵の訓練は広く研究されてきたが、過剰にパラメータ化された体制で動作し、高い計算と大きなメモリ予算を必要とする。 本研究では, 対向的ロバスト性とモデル圧縮を橋渡しし, 対向的損失の2次情報を利用した新しい対向的プルーニング手法, Masking Adversarial damage (MAD)を提案する。 これを用いることで,モデルパラメータの可逆的給与を精度良く推定し,可逆的ロバスト性を弱めることなくどのパラメータを刈り取ることができるかを決定することができる。 さらに,初期層のモデルパラメータは敵の例に非常に敏感であり,圧縮された特徴表現が対象オブジェクトのセマンティック情報を保持することを示す。 3つの公開データセットに関する広範な実験を通して、MADは敵の堅牢性を損なうことなく、敵の訓練されたネットワークを効果的にプーンし、従来の敵のプルーニング手法よりも優れた性能を示すことを示した。

Adversarial examples provoke weak reliability and potential security issues in deep neural networks. Although adversarial training has been widely studied to improve adversarial robustness, it works in an over-parameterized regime and requires high computations and large memory budgets. To bridge adversarial robustness and model compression, we propose a novel adversarial pruning method, Masking Adversarial Damage (MAD) that employs second-order information of adversarial loss. By using it, we can accurately estimate adversarial saliency for model parameters and determine which parameters can be pruned without weakening adversarial robustness. Furthermore, we reveal that model parameters of initial layer are highly sensitive to the adversarial examples and show that compressed feature representation retains semantic information for the target objects. Through extensive experiments on three public datasets, we demonstrate that MAD effectively prunes adversarially trained networks without loosing adversarial robustness and shows better performance than previous adversarial pruning methods.
翻訳日:2022-04-07 14:05:29 公開日:2022-04-06
# Universal Representations: 複数のタスクとドメイン学習を統一的に見る

Universal Representations: A Unified Look at Multiple Task and Domain Learning ( http://arxiv.org/abs/2204.02744v1 )

ライセンス: Link先を確認
Wei-Hong Li, Xialei Liu, Hakan Bilen(参考訳) 単一の深層ニューラルネットワークである普遍表現を用いて,複数の視覚タスクと視覚領域を協調的に学習する統一的な考察を提案する。 複数の問題を同時に学習することは、異なる大きさと特性の多重損失関数の重み付け和を最小化することを含み、その結果、各問題に対する別のモデルを学ぶよりも、最適化と貧弱な結果を支配する1つの損失のバランスの取れない状態となる。 そこで本研究では,複数のタスク/ドメイン特化ネットワークの知識を単一ディープニューラルネットワークに抽出し,その表現とタスク/ドメイン特化ネットワークとの整合性を,小容量アダプタを用いて提案する。 我々は,NYU-v2 と Cityscapes の複数の密集予測問題,Visual Decathlon Dataset の様々な領域からの複数の画像分類問題,MetaDataset のクロスドメイン数ショット学習において,普遍的な表現が最先端のパフォーマンスを達成することを示す。 最後に, アブレーションと定性研究を通して, 複数の分析を行った。

We propose a unified look at jointly learning multiple vision tasks and visual domains through universal representations, a single deep neural network. Learning multiple problems simultaneously involves minimizing a weighted sum of multiple loss functions with different magnitudes and characteristics and thus results in unbalanced state of one loss dominating the optimization and poor results compared to learning a separate model for each problem. To this end, we propose distilling knowledge of multiple task/domain-specific networks into a single deep neural network after aligning its representations with the task/domain-specific ones through small capacity adapters. We rigorously show that universal representations achieve state-of-the-art performances in learning of multiple dense prediction problems in NYU-v2 and Cityscapes, multiple image classification problems from diverse domains in Visual Decathlon Dataset and cross-domain few-shot learning in MetaDataset. Finally we also conduct multiple analysis through ablation and qualitative studies.
翻訳日:2022-04-07 14:05:08 公開日:2022-04-06
# Unpaired Contrastive Learningによる半DRDNet半教師付きDetail-Recovery Image Deraining Network

Semi-DRDNet Semi-supervised Detail-recovery Image Deraining Network via Unpaired Contrastive Learning ( http://arxiv.org/abs/2204.02772v1 )

ライセンス: Link先を確認
Yiyang Shen, Sen Deng, Wenhan Yang, Mingqiang Wei, Haoran Xie, XiaoPing Zhang, Jing Qin, Meng Wang(参考訳) 雨画像内容の複雑さは, 残雨, 細部ずれ, 外観のゆがみなどの画像劣化を, 最先端の流出モデルに導くことが多い。 このような劣化は、合成データで訓練されたモデルを現実世界の雨画像に適用する場合、さらに悪化する。 アクセシビリティのないクリーン/レイニーな実世界のイメージと、追加の詳細な修復ガイダンスの両方を活用することで、デラリニングモデルの一般化能力を向上させることができるのか? そこで本研究では,半教師付き詳細復元画像デラインネットワーク(Semi-DRDNet)を提案する。 Semi-DRDNetは3つのブランチで構成される。 1)残余のない雨害を除去するためには,<textit{squeeze-and-excitati on} (SE) に基づく雨残留ネットワークを提示する。 2) 失われた詳細の返却を促すために, \textit{structure detail context aggregation} (sdcab) ベースの詳細修復ネットワークを構築します。 3) 領域ギャップを埋めるために, 未完成の正(クリーン)と負(レイニー)の実際の画像から学ぶための, 対照的な正則化ネットワークを開発する。 半教師付き学習パラダイムとして、セミドルドネットは合成データと現実世界の雨データの両方においてロバスト性と詳細精度の点でスムーズに動作する。 4つのデータセットを比較すると、Semi-DRDNetは13以上の最先端技術で視覚的および数値的に改善されている。

The intricacy of rainy image contents often leads cutting-edge deraining models to image degradation including remnant rain, wrongly-removed details, and distorted appearance. Such degradation is further exacerbated when applying the models trained on synthetic data to real-world rainy images. We raise an intriguing question -- if leveraging both accessible unpaired clean/rainy yet real-world images and additional detail repair guidance, can improve the generalization ability of a deraining model? To answer it, we propose a semi-supervised detail-recovery image deraining network (termed as Semi-DRDNet). Semi-DRDNet consists of three branches: 1) for removing rain streaks without remnants, we present a \textit{squeeze-and-excitati on} (SE)-based rain residual network; 2) for encouraging the lost details to return, we construct a \textit{structure detail context aggregation} (SDCAB)-based detail repair network; to our knowledge, this is the first time; and 3) for bridging the domain gap, we develop a novel contrastive regularization network to learn from unpaired positive (clean) and negative (rainy) yet real-world images. As a semi-supervised learning paradigm, Semi-DRDNet operates smoothly on both synthetic and real-world rainy data in terms of deraining robustness and detail accuracy. Comparisons on four datasets show clear visual and numerical improvements of our Semi-DRDNet over thirteen state-of-the-arts.
翻訳日:2022-04-07 14:04:46 公開日:2022-04-06
# 高密度ランドマークを用いた3次元顔再建

3D face reconstruction with dense landmarks ( http://arxiv.org/abs/2204.02776v1 )

ライセンス: Link先を確認
Erroll Wood, Tadas Baltrusaitis, Charlie Hewitt, Matthew Johnson, Jingjing Shen, Nikola Milosavljevic, Daniel Wilde, Stephan Garbin, Toby Sharp, Ivan Stojiljkovic, Tom Cashman, Julien Valentin(参考訳) ランドマークはしばしば顔分析において重要な役割を果たすが、アイデンティティや表現の多くの側面はスパースランドマークだけでは表現できない。 したがって、顔をより正確に再構築するために、ランドマークは深度画像や微分レンダリングのような技法のような追加の信号と組み合わせられることが多い。 ランドマークを増やすだけで、物事をシンプルに保てますか? 回答として,目と歯を含む頭部全体をカバーし,通常の10倍のランドマークを正確に予測する最初の方法を提案する。 これは完全なランドマークアノテーションを保証する合成トレーニングデータを使用して達成される。 これらの密集したランドマークに変形可能なモデルを適合させることで,野生の単眼的3d顔再構成の最先端の結果を得る。 単眼と多眼の両方のシナリオにおいて,顔の形状を正確に表現し,顔の形状情報をフレーム間で統合するための理想的な信号であることを示す。 密度の高いランドマークを予測し、1つのcpuスレッドで150fps以上の3d顔モデルに適合させることができます。

Landmarks often play a key role in face analysis, but many aspects of identity or expression cannot be represented by sparse landmarks alone. Thus, in order to reconstruct faces more accurately, landmarks are often combined with additional signals like depth images or techniques like differentiable rendering. Can we keep things simple by just using more landmarks? In answer, we present the first method that accurately predicts 10x as many landmarks as usual, covering the whole head, including the eyes and teeth. This is accomplished using synthetic training data, which guarantees perfect landmark annotations. By fitting a morphable model to these dense landmarks, we achieve state-of-the-art results for monocular 3D face reconstruction in the wild. We show that dense landmarks are an ideal signal for integrating face shape information across frames by demonstrating accurate and expressive facial performance capture in both monocular and multi-view scenarios. This approach is also highly efficient: we can predict dense landmarks and fit our 3D face model at over 150FPS on a single CPU thread.
翻訳日:2022-04-07 14:03:31 公開日:2022-04-06
# 教師なしビデオオブジェクトセグメンテーションのためのインシシットモーション補償ネットワーク

Implicit Motion-Compensated Network for Unsupervised Video Object Segmentation ( http://arxiv.org/abs/2204.02791v1 )

ライセンス: Link先を確認
Lin Xi, Weihai Chen, Xingming Wu, Zhong Liu, and Zhengguo Li(参考訳) 教師なしビデオオブジェクトセグメンテーション(UVOS)は、ビデオシーケンスの背景から一次前景オブジェクトを自動的に分離することを目的としている。 既存のUVOS手法では、視覚的に類似した環境(外観ベース)がある場合や、動的背景と不正確な流れ(フローベース)のために予測品質の劣化に悩まされている場合、堅牢性を欠いている。 この制限を克服するため、光学的フローを推定することなく、隣接するフレームから現在のフレームへの一致した動き情報と相補的キュー(\textit{i.e.}$, appearance and motion)を組み合わせた暗黙的な動き補償ネットワーク(IMCNet)を提案する。 IMCNetはアフィニティ計算モジュール(ACM)、アテンション伝搬モジュール(APM)、動き補償モジュール(MCM)から構成される。 軽量ACMは、外観特徴に基づいて隣接する入力フレーム間の共通性を抽出する。 APMは、グローバルな相関をトップダウンで送信する。 粗大から細い反復インスピレーションによって、APMは複数の解像度からオブジェクト領域を洗練し、詳細を失うのを効率的に回避する。 そして、MCMは、時間的に隣接するフレームから現在フレームまでの動作情報を整列し、特徴レベルで暗黙的な動き補償を実現する。 我々は、$\textit{DAVIS}_{\textit{16}}$と$\textit{YouTube-Objects}$で広範な実験を行います。 本ネットワークは最先端手法に比べて高速で動作しながら良好な性能を実現している。

Unsupervised video object segmentation (UVOS) aims at automatically separating the primary foreground object(s) from the background in a video sequence. Existing UVOS methods either lack robustness when there are visually similar surroundings (appearance-based) or suffer from deterioration in the quality of their predictions because of dynamic background and inaccurate flow (flow-based). To overcome the limitations, we propose an implicit motion-compensated network (IMCNet) combining complementary cues ($\textit{i.e.}$, appearance and motion) with aligned motion information from the adjacent frames to the current frame at the feature level without estimating optical flows. The proposed IMCNet consists of an affinity computing module (ACM), an attention propagation module (APM), and a motion compensation module (MCM). The light-weight ACM extracts commonality between neighboring input frames based on appearance features. The APM then transmits global correlation in a top-down manner. Through coarse-to-fine iterative inspiring, the APM will refine object regions from multiple resolutions so as to efficiently avoid losing details. Finally, the MCM aligns motion information from temporally adjacent frames to the current frame which achieves implicit motion compensation at the feature level. We perform extensive experiments on $\textit{DAVIS}_{\textit{16}}$ and $\textit{YouTube-Objects}$. Our network achieves favorable performance while running at a faster speed compared to the state-of-the-art methods.
翻訳日:2022-04-07 14:03:16 公開日:2022-04-06
# ShowFace: メモリ分散リファインメントネットワークによるコーディネート顔インペインティング

ShowFace: Coordinated Face Inpainting with Memory-Disentangled Refinement Networks ( http://arxiv.org/abs/2204.02824v1 )

ライセンス: Link先を確認
Zhuojie Wu, Xingqun Qi, Zijian Wang, Wanting Zhou, Kun Yuan, Muyi Sun and Zhenan Sun(参考訳) Face Inpaintingは、完了した領域と非破損した領域の調整を必要とする顔画像の劣化した領域を完成させることを目的としている。 近年,画像のコーディネーションを改善するために外部メモリモジュールを導入することで,メモリ指向手法が生成関連タスクにおいて大きな期待値を示している。 しかし、そのような手法は、特定の意味的部分に対する一貫性と連続性を回復する際の限界がある。 本稿では,2つの協調モジュール,dmm(disentangled memory module)とmrem(mask-region enhanced module)を統合した,協調顔ペイントのための粒度から粒度までのメモリ不等角化ネットワーク(mdrnets)を提案する。 具体的には、DMMは、セマンティック・デカップリングされた顔表現を格納するために、アンタングル化されたメモリブロックのグループを確立する。 MREMは、劣化した領域の特徴的関係を強化するためのマスク付き相関マイニング機構を備えており、メモリの絡み合いによる相関損失を補うこともできる。 さらに, 劣化領域と非破壊領域の相互調整を改善し, 劣化領域における協調性を高めるため, inco2ロスの設計を行った。 最終的に、CelebA-HQとFFHQのデータセットで実施された広範な実験は、これまでのState-Of-The-Art手法と比較してMDRNetの優位性を実証した。

Face inpainting aims to complete the corrupted regions of the face images, which requires coordination between the completed areas and the non-corrupted areas. Recently, memory-oriented methods illustrate great prospects in the generation related tasks by introducing an external memory module to improve image coordination. However, such methods still have limitations in restoring the consistency and continuity for specificfacial semantic parts. In this paper, we propose the coarse-to-fine Memory-Disentangled Refinement Networks (MDRNets) for coordinated face inpainting, in which two collaborative modules are integrated, Disentangled Memory Module (DMM) and Mask-Region Enhanced Module (MREM). Specifically, the DMM establishes a group of disentangled memory blocks to store the semantic-decoupled face representations, which could provide the most relevant information to refine the semantic-level coordination. The MREM involves a masked correlation mining mechanism to enhance the feature relationships into the corrupted regions, which could also make up for the correlation loss caused by memory disentanglement. Furthermore, to better improve the inter-coordination between the corrupted and non-corrupted regions and enhance the intra-coordination in corrupted regions, we design InCo2 Loss, a pair of similarity based losses to constrain the feature consistency. Eventually, extensive experiments conducted on CelebA-HQ and FFHQ datasets demonstrate the superiority of our MDRNets compared with previous State-Of-The-Art methods.
翻訳日:2022-04-07 14:02:47 公開日:2022-04-06
# リモートセンシング事前学習の実証的研究

An Empirical Study of Remote Sensing Pretraining ( http://arxiv.org/abs/2204.02825v1 )

ライセンス: Link先を確認
Di Wang, Jing Zhang, Bo Du, Gui-Song Xia and Dacheng Tao(参考訳) 深層学習は、空中画像理解のためのリモートセンシング研究を大きく変えてきた。 それにもかかわらず、既存の深層モデルはimagenetプリトレーニングウェイトで初期化されており、自然画像は必然的に空中画像と比較して大きな領域ギャップを示し、おそらく下流の空中シーンタスクの微調整性能を制限している。 この課題は、リモートセンシング事前訓練(RSP)の実証的研究を行う動機となっている。 そこで我々は,コンピュータビジョンタスクにおいて有望な性能を示すコンボリューショナルニューラルネットワーク(CNN)と,SwinやViTAEなどのビジョントランスフォーマーを含む,リモートセンシング事前学習されたバックボーンを得るために,現在MillionAIDまでの最大のリモートセンシングシーン認識データセットの助けを借りて,ゼロから異なるネットワークをトレーニングする。 次に,画像ネット事前学習(IMP)とRSPがシーン認識,セマンティックセグメンテーション,オブジェクト検出,CNNと視覚変換器のバックボーンを用いた変化検出など,一連の下流タスクに与える影響について検討する。 以下の経験的な知見がある。 まず、視覚トランスフォーマーは一般的にcnnのバックボーンよりも優れており、vitaeは畳み込みからトランスフォーマーに内在的な帰納的バイアスを導入することで、表現能力の強いため最高の性能を達成している。 第2に、IMPとRSPはどちらもパフォーマンスの向上に役立ち、IMPはより多くのカテゴリに属する多様な画像からより普遍的な表現を学習し、RSPはリモートセンシング関連セマンティクスの知覚に特有である。 第3に、RSPは、リモートセンシングのためのIMPのデータ差を緩和するが、下流タスクがシーン認識タスクと異なる表現を必要とするタスク差に苦しむ可能性がある。 これらの知見は、大規模事前トレーニングデータセットと効果的な事前トレーニング方法の両方について、さらなる研究の努力を必要とする。

Deep learning has largely reshaped remote sensing research for aerial image understanding. Nevertheless, most of existing deep models are initialized with ImageNet pretrained weights, where the natural images inevitably presents a large domain gap relative to the aerial images, probably limiting the finetuning performance on downstream aerial scene tasks. This issue motivates us to conduct an empirical study of remote sensing pretraining (RSP). To this end, we train different networks from scratch with the help of the largest remote sensing scene recognition dataset up to now-MillionAID, to obtain the remote sensing pretrained backbones, including both convolutional neural networks (CNN) and vision transformers such as Swin and ViTAE, which have shown promising performance on computer vision tasks. Then, we investigate the impact of ImageNet pretraining (IMP) and RSP on a series of downstream tasks including scene recognition, semantic segmentation, object detection, and change detection using the CNN and vision transformers backbones. We have some empirical findings as follows. First, vision transformers generally outperforms CNN backbones, where ViTAE achieves the best performance, owing to its strong representation capacity by introducing intrinsic inductive bias from convolutions to transformers. Second, both IMP and RSP help deliver better performance, where IMP enjoys a versatility by learning more universal representations from diverse images belonging to much more categories while RSP is distinctive in perceiving remote sensing related semantics. Third, RSP mitigates the data discrepancy of IMP for remote sensing but may still suffer from the task discrepancy, where downstream tasks require different representations from the scene recognition task. These findings call for further research efforts on both large-scale pretraining datasets and effective pretraining methods.
翻訳日:2022-04-07 14:02:19 公開日:2022-04-06
# 深層学習画像のカラー化における色空間の影響

Influence of Color Spaces for Deep Learning Image Colorization ( http://arxiv.org/abs/2204.02850v1 )

ライセンス: Link先を確認
Coloma Ballester, Aur\'elie Bugeau, Hernan Carrillo, Micha\"el Cl\'ement, R\'emi Giraud, Lara Raad, Patricia Vitoria(参考訳) カラー化は、グレースケールの画像をできるだけ自然に見える色に変換するプロセスである。 長年にわたり、この仕事は多くの注目を集めてきた。 既存のカラー化手法は、rgb、yuv、labなど、異なる色空間に依存している。 本章では,深層ニューラルネットワークのトレーニングによって得られた結果に対するその影響について,「深層学習に基づくカラー化において,適切な色空間を正しく選択することは不可欠か」という問いに答えることを目的とする。 まず,文献を簡潔に要約し,特に深層学習に基づく手法について述べる。 次に、同じディープニューラルネットワークアーキテクチャで得られた結果を、RGB、YUV、Labの色空間と比較する。 定性的かつ定量的な分析は、どの色空間が良いかも同様に結論しない。 次に,処理対象の画像の種類や特異性に応じて,アーキテクチャや評価プロトコルを慎重に設計することの重要性を示す。

Colorization is a process that converts a grayscale image into a color one that looks as natural as possible. Over the years this task has received a lot of attention. Existing colorization methods rely on different color spaces: RGB, YUV, Lab, etc. In this chapter, we aim to study their influence on the results obtained by training a deep neural network, to answer the question: "Is it crucial to correctly choose the right color space in deep-learning based colorization?". First, we briefly summarize the literature and, in particular, deep learning-based methods. We then compare the results obtained with the same deep neural network architecture with RGB, YUV and Lab color spaces. Qualitative and quantitative analysis do not conclude similarly on which color space is better. We then show the importance of carefully designing the architecture and evaluation protocols depending on the types of images that are being processed and their specificities: strong/small contours, few/many objects, recent/archive images.
翻訳日:2022-04-07 14:01:45 公開日:2022-04-06
# サンプリング型高速勾配再スケーリング法による高転送性逆襲攻撃

Sampling-based Fast Gradient Rescaling Method for Highly Transferable Adversarial Attacks ( http://arxiv.org/abs/2204.02887v1 )

ライセンス: Link先を確認
Xu Han, Anmin Liu, Yifeng Xiong, Yanbo Fan, Kun He(参考訳) ディープニューラルネットワークは、人間の知覚可能な摂動を良質な入力に追加することで、敵対的な例に非常に脆弱であることが示されている。 ホワイトボックス設定で印象的な攻撃成功率を達成した後、より焦点がブラックボックス攻撃に移される。 いずれの場合も、一般的な勾配に基づくアプローチは、通常、$sign$関数を使用してプロセスの最後に摂動を生成する。 しかし、$sign$関数の制限に注意を払っているのはごくわずかである。 元の勾配と生成された雑音の偏差は、ブラックボックス攻撃に不可欠な逆転性に対する不正確な勾配更新推定と準最適解をもたらす可能性がある。 そこで本研究では,S-FGRM(Saming-based Fast Gradient Rescaling Method)を提案する。 具体的には,非効率な$sign$関数を計算コストを伴わない勾配攻撃で置き換えるためにデータ再スケーリングを用いる。 また,再スケーリングの変動を解消し,勾配更新を安定化するDepth First Smpling法を提案する。 本手法は任意の勾配に基づく最適化に使用することができ, 様々な入力変換やアンサンブル法と統合して, 対向変換性の向上を図ることができる。 標準のImageNetデータセットに対する大規模な実験により、我々のS-FGRMは勾配ベースの攻撃の転送可能性を大幅に向上し、最先端のベースラインより優れていることが示された。

Deep neural networks have shown to be very vulnerable to adversarial examples crafted by adding human-imperceptible perturbations to benign inputs. After achieving impressive attack success rates in the white-box setting, more focus is shifted to black-box attacks. In either case, the common gradient-based approaches generally use the $sign$ function to generate perturbations at the end of the process. However, only a few works pay attention to the limitation of the $sign$ function. Deviation between the original gradient and the generated noises may lead to inaccurate gradient update estimation and suboptimal solutions for adversarial transferability, which is crucial for black-box attacks. To address this issue, we propose a Sampling-based Fast Gradient Rescaling Method (S-FGRM) to improve the transferability of the crafted adversarial examples. Specifically, we use data rescaling to substitute the inefficient $sign$ function in gradient-based attacks without extra computational cost. We also propose a Depth First Sampling method to eliminate the fluctuation of rescaling and stabilize the gradient update. Our method can be used in any gradient-based optimizations and is extensible to be integrated with various input transformation or ensemble methods for further improving the adversarial transferability. Extensive experiments on the standard ImageNet dataset show that our S-FGRM could significantly boost the transferability of gradient-based attacks and outperform the state-of-the-art baselines.
翻訳日:2022-04-07 14:01:32 公開日:2022-04-06
# DBF:複数物体検出器を組み合わせた動的信念融合

DBF: Dynamic Belief Fusion for Combining Multiple Object Detectors ( http://arxiv.org/abs/2204.02890v1 )

ライセンス: Link先を確認
Hyungtae Lee and Heesung Kwon(参考訳) 本稿では,複数の物体検出手法から個々の検出値を直接統合したdynamic belief fusion (dbf) という,新しい実用性の高いスコアレベルの融合手法を提案する。 複数の検出器の個々の出力を効果的に統合するために、各検出スコアのあいまいさレベルを、対応する検出器の高精度リコール関係に基づく信頼度モデルを用いて推定する。 それぞれの検出器出力に対して、DBFは、基本確率割り当てと呼ばれる個々の検出器の事前信頼度モデルに基づいて、検出スコアの信頼度に基づいて、3つの仮説(ターゲット、非ターゲット、中間状態(ターゲットまたは非ターゲット))の確率を算出する。 全ての検出器の3つの仮説の確率分布は、デンプスターの組合せ則によって最適に融合される。 ARL、PASCAL VOC 07、12データセットの実験では、DBFの検出精度は、核融合に使用される個々の検出器と同様に、どのベースライン融合アプローチよりも著しく高いことが示されている。

In this paper, we propose a novel and highly practical score-level fusion approach called dynamic belief fusion (DBF) that directly integrates inference scores of individual detections from multiple object detection methods. To effectively integrate the individual outputs of multiple detectors, the level of ambiguity in each detection score is estimated using a confidence model built on a precision-recall relationship of the corresponding detector. For each detector output, DBF then calculates the probabilities of three hypotheses (target, non-target, and intermediate state (target or non-target)) based on the confidence level of the detection score conditioned on the prior confidence model of individual detectors, which is referred to as basic probability assignment. The probability distributions over three hypotheses of all the detectors are optimally fused via the Dempster's combination rule. Experiments on the ARL, PASCAL VOC 07, and 12 datasets show that the detection accuracy of the DBF is significantly higher than any of the baseline fusion approaches as well as individual detectors used for the fusion.
翻訳日:2022-04-07 14:01:06 公開日:2022-04-06
# 終端端エッジ検出

End-to-End Instance Edge Detection ( http://arxiv.org/abs/2204.02898v1 )

ライセンス: Link先を確認
Xueyan Zou, Haotian Liu, Yong Jae Lee(参考訳) エッジ検出は長い間、コンピュータビジョンの分野で重要な問題であった。 従来の研究は、カテゴリ非依存またはカテゴリ対応エッジ検出を探索してきた。 本稿では,オブジェクトインスタンスのコンテキストにおけるエッジ検出について検討する。 物体の境界はセグメンテーションマスクから容易に導出できるが、実際には、インスタンスセグメンテーションモデルは、IoUを接地トラスマスクに最大化するために訓練されており、つまり、接地トラスエッジ境界と正確に整合するようにセグメンテーション境界を強制しないことを意味する。 したがって、インスタンスエッジ検出自体のタスクは異なり、クリティカルである。 高精度エッジ検出には高分解能特徴写像が必要であるため,FPNと変圧器デコーダを効率よく組み合わせた新しいトランスフォーマーアーキテクチャを設計し,マルチスケール高分解能特徴写像を合理的な計算予算内で実現している。 さらに,インスタンスエッジとマスク検出の両方に適用可能な軽量高密度予測ヘッドを提案する。 最後に、ペナルティを低減した焦点損失を用いて、インスタンスエッジの点監督でモデルを効果的に訓練し、アノテーションコストを削減できる。 最先端のベースラインと比較して,高い競合性を有するインスタンスエッジ検出性能を示すとともに,提案するタスクと損失がインスタンス分割とオブジェクト検出に相補的であることを示す。

Edge detection has long been an important problem in the field of computer vision. Previous works have explored category-agnostic or category-aware edge detection. In this paper, we explore edge detection in the context of object instances. Although object boundaries could be easily derived from segmentation masks, in practice, instance segmentation models are trained to maximize IoU to the ground-truth mask, which means that segmentation boundaries are not enforced to precisely align with ground-truth edge boundaries. Thus, the task of instance edge detection itself is different and critical. Since precise edge detection requires high resolution feature maps, we design a novel transformer architecture that efficiently combines a FPN and a transformer decoder to enable cross attention on multi-scale high resolution feature maps within a reasonable computation budget. Further, we propose a light weight dense prediction head that is applicable to both instance edge and mask detection. Finally, we use a penalty reduced focal loss to effectively train the model with point supervision on instance edges, which can reduce annotation costs. We demonstrate highly competitive instance edge detection performance compared to state-of-the-art baselines, and also show that the proposed task and loss are complementary to instance segmentation and object detection.
翻訳日:2022-04-07 14:00:50 公開日:2022-04-06
# (参考訳) シーケンスからシーケンスへの学習を可能にするサブタスク分解 [全文訳有]

Sub-Task Decomposition Enables Learning in Sequence to Sequence Tasks ( http://arxiv.org/abs/2204.02892v1 )

ライセンス: CC BY 4.0
Noam Wies, Yoav Levine, Amnon Shashua(参考訳) 自然言語処理(NLP)の分野は、最近の巨大な言語モデル(LM)の導入によって、能力の飛躍的な飛躍を経験した。 この成功にもかかわらず、いくつかの複雑なステップを含む自然言語の問題は、最大規模のLMでも、いまだに学習不可能である。 これは様々な領域で証明された複合問題のエンドツーエンド学習に実験的に失敗する結果となる。 既知の緩和策は、複合問題のサブタスクを解決するための中間監督を導入することである。 近年, 複合自然言語問題に中間管理を組み込むことにより, 高い利得を示す研究がいくつかある。シーケンス・ツー・シーケンス LM は, 分割されたタスクのラベルを元の入力と簡単に結合した拡張入力で供給される。 本稿では,最近の取り組みを動機づけるポジティブな学習結果を示す。 中間監督を入力に連結し、この修正された入力に対してシーケンス・ツー・シーケンスモデルを訓練すると、理解不能な複合問題を学習できることを示す。 我々はこれを、ビットサブセットパリティの難解な合成タスクとして証明し、中間的監督はますます大きなビットサブセットのパリティ結果である。 Beyond motivating contemporary empirical efforts for incorporating intermediate supervision in sequence-to-sequence language models, our positive theoretical result is the first of its kind in the landscape of results on the benefits of intermediate supervision: Until now, all theoretical results on the subject are negative, i.e., show cases where learning is impossible without intermediate supervision, while our result is positive, showing a case where learning is facilitated in the presence of intermediate supervision.

The field of Natural Language Processing (NLP) has experienced a dramatic leap in capabilities with the recent introduction of huge Language Models (LMs). Despite this success, natural language problems that involve several compounded steps are still practically unlearnable, even by the largest LMs. This complies with experimental failures for end-to-end learning of composite problems that were demonstrated in a variety of domains. A known mitigation is to introduce intermediate supervision for solving sub-tasks of the compounded problem. Recently, several works have demonstrated high gains by taking a straightforward approach for incorporating intermediate supervision in compounded natural language problems: the sequence-to-sequence LM is fed with an augmented input, in which the decomposed tasks' labels are simply concatenated to the original input. In this paper, we prove a positive learning result that motivates these recent efforts. We show that when concatenating intermediate supervision to the input and training a sequence-to-sequence model on this modified input, an unlearnable composite problem becomes learnable. We prove this for the notoriously unlearnable composite task of bit-subset parity, with the intermediate supervision being parity results of increasingly large bit-subsets. Beyond motivating contemporary empirical efforts for incorporating intermediate supervision in sequence-to-sequence language models, our positive theoretical result is the first of its kind in the landscape of results on the benefits of intermediate supervision: Until now, all theoretical results on the subject are negative, i.e., show cases where learning is impossible without intermediate supervision, while our result is positive, showing a case where learning is facilitated in the presence of intermediate supervision.
翻訳日:2022-04-07 13:58:59 公開日:2022-04-06
# 複数インスタンス学習によるうわさ検証と姿勢検出のための弱教師付き伝播モデル

A Weakly Supervised Propagation Model for Rumor Verification and Stance Detection with Multiple Instance Learning ( http://arxiv.org/abs/2204.02626v1 )

ライセンス: Link先を確認
Ruichao Yang, Jing Ma, Hongzhan Lin, Wei Gao(参考訳) マイクロブログ上での噂の拡散は一般的に伝搬木構造に追随し、元のメッセージの送信方法やユーザによる応答方法に関する貴重な手がかりを提供する。 最近の研究では、噂検出とスタンス検出は2つの異なるが関連性のあるタスクであり、例えば、関連するマイクロブログの投稿によって伝達されるスタンスを相互にチェックすることで、互いに協調的に強化することができる。 しかし、ほとんどのスタンス検出方法は、多くのポストが労働集約的なトレーニングのために巨大なポストレベルのスタンスラベルを必要とする。 マルチインスタンス学習(mil)スキームにより,まずボトムアップ木とトップダウン木でクレームの拡散を表現し,次に,クレームの妥当性に関するバッグレベルラベルのみを必要とする,噂とスタンスを共同で分類する2つの木構造的弱教師付きフレームワークを提案する。 具体的には、マルチクラス問題を複数のmilベースのバイナリ分類問題に変換し、それぞれのバイナリモデルがターゲットのスタンスや噂のタイプ、その他のタイプを区別することに焦点を当てます。 最後に,(1)ボトムアップやトップダウンのツリーの注意層をバイナリの精度に集約し,(2)バイナリクラスをよりきめ細かなクラスに集約する識別的注意層を含む,バイナリの予測を集約する階層的注意層を提案する。 3つのtwitterベースのデータセットで行った広範囲な実験は、クレームレベルのうわさ検出とポストレベルスタンス分類の両方において、最先端の手法と比較して、このモデルの有望な性能を示している。

The diffusion of rumors on microblogs generally follows a propagation tree structure, that provides valuable clues on how an original message is transmitted and responded by users over time. Recent studies reveal that rumor detection and stance detection are two different but relevant tasks which can jointly enhance each other, e.g., rumors can be debunked by cross-checking the stances conveyed by their relevant microblog posts, and stances are also conditioned on the nature of the rumor. However, most stance detection methods require enormous post-level stance labels for training, which are labor-intensive given a large number of posts. Enlightened by Multiple Instance Learning (MIL) scheme, we first represent the diffusion of claims with bottom-up and top-down trees, then propose two tree-structured weakly supervised frameworks to jointly classify rumors and stances, where only the bag-level labels concerning claim's veracity are needed. Specifically, we convert the multi-class problem into a multiple MIL-based binary classification problem where each binary model focuses on differentiating a target stance or rumor type and other types. Finally, we propose a hierarchical attention mechanism to aggregate the binary predictions, including (1) a bottom-up or top-down tree attention layer to aggregate binary stances into binary veracity; and (2) a discriminative attention layer to aggregate the binary class into finer-grained classes. Extensive experiments conducted on three Twitter-based datasets demonstrate promising performance of our model on both claim-level rumor detection and post-level stance classification compared with state-of-the-art methods.
翻訳日:2022-04-07 13:09:45 公開日:2022-04-06
# テキストベースビデオセグメンテーションのためのマルチモーダル特徴を用いた動きのモデル化

Modeling Motion with Multi-Modal Features for Text-Based Video Segmentation ( http://arxiv.org/abs/2204.02547v1 )

ライセンス: Link先を確認
Wangbo Zhao, Kai Wang, Xiangxiang Chu, Fuzhao Xue, Xinchao Wang, Yang You(参考訳) テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。 光フローマップからの運動情報を外見と言語的モダリティで組み込むことは重要であるが、これまではほとんど無視されてきた。 本稿では,正確なセグメンテーションを実現するために,外観,動き,言語的特徴を融合・整合させる手法を設計する。 具体的には,フレーム間の多モード・時間的特徴を融合・集約できるマルチモーダルビデオトランスを提案する。 さらに,各特徴レベルの外観と動作特徴を段階的に融合させる言語誘導型特徴融合モジュールを設計し,言語的特徴から指導する。 最後に、異なるモダリティの特徴間のセマンティックギャップを軽減するために、マルチモーダルアライメント損失を提案する。 a2d文とj-hmdb文の広範な実験は,最先端手法と比較して,手法の性能と一般化能力を検証する。

Text-based video segmentation aims to segment the target object in a video based on a describing sentence. Incorporating motion information from optical flow maps with appearance and linguistic modalities is crucial yet has been largely ignored by previous work. In this paper, we design a method to fuse and align appearance, motion, and linguistic features to achieve accurate segmentation. Specifically, we propose a multi-modal video transformer, which can fuse and aggregate multi-modal and temporal features between frames. Furthermore, we design a language-guided feature fusion module to progressively fuse appearance and motion features in each feature level with guidance from linguistic features. Finally, a multi-modal alignment loss is proposed to alleviate the semantic gap between features from different modalities. Extensive experiments on A2D Sentences and J-HMDB Sentences verify the performance and the generalization ability of our method compared to the state-of-the-art methods.
翻訳日:2022-04-07 13:09:11 公開日:2022-04-06
# キーサッカーマッチイベントの検出とコンピュータビジョンによるハイライト作成

Detecting key Soccer match events to create highlights using Computer Vision ( http://arxiv.org/abs/2204.02573v1 )

ライセンス: Link先を確認
Narayana Darapaneni, Prashant Kumar, Nikhil Malhotra, Vigneswaran Sundaramurthy, Abhaya Thakur, Shivam Chauhan, Krishna Chaitanya Thangeda, Anwesh Reddy Paduri(参考訳) 研究とデータサイエンスのコミュニティは、ビデオ中の重要なイベントを検出する自動システムの開発に魅了されてきた。 この分野で特に注目されるのは、試合中の重要な出来事を特定するのに役立ち、今後のゲーム戦略の準備に役立てることができるスポーツビデオ分析である。 本稿では,サッカーの試合における重要なイベントを特定し,試合のハイライトを作成することを目的としたコンピュータビジョンモデルを用いて,試合映像のハイライトを作成したいスポーツとして,サッカー(サッカー)を選択した。 私たちは、より高速なrcnnとyolov5アーキテクチャに基づいたモデルを構築しました。 ベースモデルとしてResNet50を使用した高速RCNNでは、トレーニングデータセットでは、VGG16の92%に比べて、クラス精度が95.5%向上した。 23分間のオリジナルビデオでテストし、私たちのモデルはマッチ中のほぼすべての重要なイベントをキャプチャする4:50分のハイライトに縮小することができました。

The research and data science community has been fascinated with the development of automatic systems for the detection of key events in a video. Special attention in this field is given to sports video analytics which could help in identifying key events during a match and help in preparing a strategy for the games going forward. For this paper, we have chosen Football (soccer) as a sport where we would want to create highlights for a given match video, through a computer vision model that aims to identify important events in a Soccer match to create highlights of the match. We built the models based on Faster RCNN and YoloV5 architectures and noticed that for the amount of data we used for training Faster RCNN did better than YoloV5 in detecting the events in the match though it was much slower. Within Faster RCNN using ResNet50 as a base model gave a better class accuracy of 95.5% as compared to 92% with VGG16 as base model completely outperforming YoloV5 for our training dataset. We tested with an original video of size 23 minutes and our model could reduce it to 4:50 minutes of highlights capturing almost all important events in the match.
翻訳日:2022-04-07 13:08:54 公開日:2022-04-06
# コンピュータビジョンを用いたバナナサブファミリー分類と品質予測

Banana Sub-Family Classification and Quality Prediction using Computer Vision ( http://arxiv.org/abs/2204.02581v1 )

ライセンス: Link先を確認
Narayana Darapaneni, Arjun Tanndalam, Mohit Gupta, Neeta Taneja, Prabu Purushothaman, Swati Eswar, Anwesh Reddy Paduri, Thangaselvi Arichandrapandian(参考訳) インドは世界第2位の果物や野菜の生産国であり、バナナ、パパイヤ、マンゴーなどの果物を大手小売りやeコマースの巨人であるbigbasket、grofers、amazon freshを通じて販売している。 しかし、サプライチェーンや小売店舗における技術の採用は依然として低く、果物の識別や分類にコンピュータビジョンベースの技術を採用する可能性も高い。 私たちは、以下の3つのユースケースを実行するコンピュータビジョンベースのモデルを構築するためにバナナフルーツを選択しました。 (a)ある画像からバナナを識別する (b)バナナの亜科又は品種を決定する (c)バナナの品質を決定すること。 コンピュータビジョンモデルを用いたこれらのユースケースの実行の成功は、在庫管理の自動化、品質管理、迅速かつ効率的な計量と請求の全体において大きな助けとなる。 本研究では,cnnのアイデアとトランスファー学習,およびバナナ果実サブファミリーと品質画像分類の改善のためのデータ強化を組み合わせた機械学習パイプラインを提案する。 我々は、基本的なCNNを構築し、その後、3064画像の自己計算と公開データセットの組み合わせを使用して、MobileNet Banana分類モデルをチューニングした。 その結果、サブファミリー/バラエティおよび品質テスト分類の総合的な93.4%と100%の精度が示された。

India is the second largest producer of fruits and vegetables in the world, and one of the largest consumers of fruits like Banana, Papaya and Mangoes through retail and ecommerce giants like BigBasket, Grofers and Amazon Fresh. However, adoption of technology in supply chain and retail stores is still low and there is a great potential to adopt computer-vision based technology for identification and classification of fruits. We have chosen banana fruit to build a computer vision based model to carry out the following three use-cases (a) Identify Banana from a given image (b) Determine sub-family or variety of Banana (c) Determine the quality of Banana. Successful execution of these use-cases using computer-vision model would greatly help with overall inventory management automation, quality control, quick and efficient weighing and billing which all are manual labor intensive currently. In this work, we suggest a machine learning pipeline that combines the ideas of CNNs, transfer learning, and data augmentation towards improving Banana fruit sub family and quality image classification. We have built a basic CNN and then went on to tune a MobileNet Banana classification model using a combination of self-curated and publicly-available dataset of 3064 images. The results show an overall 93.4% and 100% accuracy for sub-family/variety and for quality test classifications respectively.
翻訳日:2022-04-07 13:08:36 公開日:2022-04-06
# 画像からの割り込み除去のためのsrganに基づくインパインティングシステムにおける文脈的注意機構

Contextual Attention Mechanism, SRGAN Based Inpainting System for Eliminating Interruptions from Images ( http://arxiv.org/abs/2204.02591v1 )

ライセンス: Link先を確認
Narayana Darapaneni, Vaibhav Kherde, Kameswara Rao, Deepali Nikam, Swanand Katdare, Anima Shukla, Anagha Lomate, Anwesh Reddy Paduri(参考訳) 新しい選択肢は、画像分類とコンピュータビジョン技術を利用して、ディープラーニングを使用して任意のイメージを塗りつぶすことである。 一般に、画像インペイントとは、写真や油絵、アクリル絵など、壊れた画像の再現や再構築を行う作業である。 人工知能の分野での進歩により、この話題はAI愛好家の間で人気を博している。 本手法では,従来のアプリケーションベースアプローチではなく,完全な機械学習アプローチを用いて画像のインペイントを行うエンド・ツー・エンドパイプラインを提案する。 まず、YOLOモデルを使用して、画像から削除したいオブジェクトを自動的に識別し、ローカライズします。 モデルから得られた結果を使って、同じマスクを生成することができる。 その後、領域を埋めるためにコンテキストアテンション法を用いたGANモデルにマスク画像とオリジナル画像を提供する。 2つのジェネレータネットワークと2つの識別器ネットワークで構成され、粗いネットワーク構造とも呼ばれる。 2つのジェネレータは完全な畳み込みネットワークを使用し、グローバル識別器は画像全体を入力として保持し、ローカル識別器は入力として領域のグリップを取得する。 空間的位置から近隣情報を効果的に借用し,失明画素の再構成を行うためのコンテキストアテンション機構を提案する。 実装の第3部では、SRGANを使用して、塗装された画像を元のサイズに戻す。 我々の研究は論文Free-Form Image Inpainting with Gated ConvolutionとGenerative Image Inpainting with Contextual Attentionに触発されている。

The new alternative is to use deep learning to inpaint any image by utilizing image classification and computer vision techniques. In general, image inpainting is a task of recreating or reconstructing any broken image which could be a photograph or oil/acrylic painting. With the advancement in the field of Artificial Intelligence, this topic has become popular among AI enthusiasts. With our approach, we propose an initial end-to-end pipeline for inpainting images using a complete Machine Learning approach instead of a conventional application-based approach. We first use the YOLO model to automatically identify and localize the object we wish to remove from the image. Using the result obtained from the model we can generate a mask for the same. After this, we provide the masked image and original image to the GAN model which uses the Contextual Attention method to fill in the region. It consists of two generator networks and two discriminator networks and is also called a coarse-to-fine network structure. The two generators use fully convolutional networks while the global discriminator gets hold of the entire image as input while the local discriminator gets the grip of the filled region as input. The contextual Attention mechanism is proposed to effectively borrow the neighbor information from distant spatial locations for reconstructing the missing pixels. The third part of our implementation uses SRGAN to resolve the inpainted image back to its original size. Our work is inspired by the paper Free-Form Image Inpainting with Gated Convolution and Generative Image Inpainting with Contextual Attention.
翻訳日:2022-04-07 13:07:58 公開日:2022-04-06
# PP-LiteSeg: リアルタイムセマンティックセマンティックセグメンテーションモデル

PP-LiteSeg: A Superior Real-Time Semantic Segmentation Model ( http://arxiv.org/abs/2204.02681v1 )

ライセンス: Link先を確認
Juncai Peng, Yi Liu, Shiyu Tang, Yuying Hao, Lutao Chu, Guowei Chen, Zewu Wu, Zeyu Chen, Zhiliang Yu, Yuning Du, Qingqing Dang, Baohua Lai, Qiwen Liu, Xiaoguang Hu, Dianhai Yu, Yanjun Ma(参考訳) 実世界のアプリケーションにはセマンティックセグメンテーション法に対する高い要求がある。 セマンティックセグメンテーションはディープラーニングによって飛躍的な進歩を遂げているが、リアルタイムメソッドのパフォーマンスは満足できない。 本研究では,リアルタイムセマンティックセグメンテーションタスクのための新しい軽量モデルPP-LiteSegを提案する。 具体的には,従来のデコーダの計算オーバーヘッドを低減するために,フレキシブル・軽量デコーダ(FLD)を提案する。 特徴表現を強化するために,空間的およびチャネル的注意を生かして重みを生成し,その重みで入力特徴を融合させる統一注意融合モジュール(UAFM)を提案する。 さらに、計算コストの低いグローバルコンテキストを集約するために、単純なピラミッドプールモジュール(SPPM)を提案する。 PP-LiteSegは,他の手法に比べて精度と速度のトレードオフが優れていることを示す。 Cityscapesのテストセットでは、PP-LiteSegはNVIDIA GTX 1080Tiで72.0% mIoU/273.6 FPSと77.5% mIoU/102.6 FPSを達成した。 ソースコードとモデルはPaddleSegで入手できる。

Real-world applications have high demands for semantic segmentation methods. Although semantic segmentation has made remarkable leap-forwards with deep learning, the performance of real-time methods is not satisfactory. In this work, we propose PP-LiteSeg, a novel lightweight model for the real-time semantic segmentation task. Specifically, we present a Flexible and Lightweight Decoder (FLD) to reduce computation overhead of previous decoder. To strengthen feature representations, we propose a Unified Attention Fusion Module (UAFM), which takes advantage of spatial and channel attention to produce a weight and then fuses the input features with the weight. Moreover, a Simple Pyramid Pooling Module (SPPM) is proposed to aggregate global context with low computation cost. Extensive evaluations demonstrate that PP-LiteSeg achieves a superior trade-off between accuracy and speed compared to other methods. On the Cityscapes test set, PP-LiteSeg achieves 72.0% mIoU/273.6 FPS and 77.5% mIoU/102.6 FPS on NVIDIA GTX 1080Ti. Source code and models are available at PaddleSeg: https://github.com/P addlePaddle/PaddleSe g.
翻訳日:2022-04-07 13:07:31 公開日:2022-04-06
# プライバシ分析のためのタグ付き分散遷移システム

Distributed Transition Systems with Tags for Privacy Analysis ( http://arxiv.org/abs/2204.02602v1 )

ライセンス: Link先を確認
Siva Anantharaman (LMV), Sabine Frittella (SDS), Benjamin Nguyen (SDS)(参考訳) 本稿では,与えられたデータベースdに格納された与えられたプライベート情報pを,エージェント/敵が繰り返しデータベースに問い合わせることで,段階的に捉えられるようにモデル化する論理フレームワークを提案する。dltts(distributed labeled tagged transition system)と題されたフレームワークは,複数の領域からアイデアを借りている。 DLTTS上の全てのノードには、DBMSの応答メカニズムの応答から取得した敵の"現在の"知識を表すタグが付加され、任意のランに沿って先にトラバースされたノードで、この知識は同一ノードで完了し、さらにリレーショナルデダクションが、おそらくは事前に与えられた他のデータベースからの"パブリック"情報と組み合わせられる。 ブラックボックス」機構もDLTTSの一部であり、これは神託として意図されており、その役割は、現在のノードの敵によってプライベート情報が推論されたかどうか、そしてそれが実行を終了するかどうかを判断することである。 もうひとつの特長は、ブラックボックスが、現在のノードのプライベート情報pから、どのように「閉じた」のか、それとも敵の知識がいかに「遠い」のかの情報を与えることだ。 その目的のためにメトリクスが定義され、与えられたデータベースから全ての'タイプ互換'タプルの集合上で、データ自体がベースヘッダで型付けされる。 私たちのフレームワークの移行システムのフレーバーにもかかわらず、このメトリクスは、他の研究で示された意味では「行動的」ではありません。 データベース指向であり、通常ハミング計量に基づくもの(および制限されたアジャクシーの概念)よりも、データベース間の不連続性や不連続性という新しい概念を定義することができる。 私たちのフレームワークの仕組みを説明するために、例を挙げてみましょう。 キーワード:データベース、プライバシー、遷移システム、確率、分布。

We present a logical framework that formally models how a given private information P stored on a given database D, can get captured progressively, by an agent/adversary querying the database repeatedly.Named DLTTS (Distributed Labeled Tagged Transition System), the frame-work borrows ideas from several domains: Probabilistic Automata of Segala, Probabilistic Concurrent Systems, and Probabilistic labelled transition systems. To every node on a DLTTS is attached a tag that represents the 'current' knowledge of the adversary, acquired from the responses of the answering mechanism of the DBMS to his/her queries, at the nodes traversed earlier, along any given run; this knowledge is completed at the same node, with further relational deductions, possibly in combination with 'public' information from other databases given in advance. A 'blackbox' mechanism is also part of a DLTTS, and it is meant as an oracle; its role is to tell if the private information has been deduced by the adversary at the current node, and if so terminate the run. An additional special feature is that the blackbox also gives information on how 'close',or how 'far', the knowledge of the adversary is, from the private information P , at the current node. A metric is defined for that purpose, on the set of all 'type compatible' tuples from the given database, the data themselves being typed with the headers of the base. Despite the transition systems flavor of our framework, this metric is not 'behavioral' in the sense presented in some other works. It is exclusively database oriented,and allows to define new notions of adjacency and of -indistinguishabilty between databases, more generally than those usually based on the Hamming metric (and a restricted notion of adjacency). Examples are given all along to illustrate how our framework works. Keywords:Database, Privacy, Transition System, Probability, Distribution.
翻訳日:2022-04-07 13:05:59 公開日:2022-04-06
# サイバーセキュリティにおけるテキスト分析のための言語モデル

Language Model for Text Analytic in Cybersecurity ( http://arxiv.org/abs/2204.02685v1 )

ライセンス: Link先を確認
Ehsan Aghaei, Xi Niu, Waseem Shadid, Ehab Al-Shaer(参考訳) nlpは、コンピュータや機械が人間の言語を理解し解釈する能力に関する人工知能や機械学習の一形態である。 言語モデルは、コンピュータが質的入力を解釈し、他のタスクで使用できる量的データに変換することができるため、テキスト分析やnlpにおいて重要である。 本質的に、転送学習の文脈では、言語モデルは、通常、事前学習段階と呼ばれる大きな汎用コーパスで訓練され、その後、特定の基礎タスクに微調整される。 その結果、事前訓練された言語モデルは、主にコンテキストの広い把握を取り入れたベースラインモデルとして使用され、新しいNLPタスクで使用されるようにさらにカスタマイズされる可能性がある。 トレーニング済みのモデルの大部分は、twitter、newswire、wikipedia、webなど、一般的なドメインのコーパスでトレーニングされている。 一般的なテキストで訓練された既製のNLPモデルは、特殊分野において非効率で不正確である可能性がある。 本稿では,SecureBERTと呼ばれるサイバーセキュリティ言語モデルを提案する。SecureBERTは,サイバーセキュリティ領域におけるテキストの意味をキャプチャし,それ以外は人間の専門知識や面倒な手作業に依存する多くの重要なサイバーセキュリティタスクの自動化に利用することができる。 SecureBERTは、サイバーセキュリティと汎用コンピューティングドメインのさまざまなソースから収集され、事前処理された大規模なサイバーセキュリティテキストのコーパスでトレーニングされています。 提案したトークン化法とモデル重み付け調整法を用いて、SecureBERTは、トレーニング済みのほとんどの言語モデルが可能であるように、一般的な英語の理解を維持するだけでなく、サイバーセキュリティに影響を及ぼすテキストに適用した場合にも有効である。

NLP is a form of artificial intelligence and machine learning concerned with a computer or machine's ability to understand and interpret human language. Language models are crucial in text analytics and NLP since they allow computers to interpret qualitative input and convert it to quantitative data that they can use in other tasks. In essence, in the context of transfer learning, language models are typically trained on a large generic corpus, referred to as the pre-training stage, and then fine-tuned to a specific underlying task. As a result, pre-trained language models are mostly used as a baseline model that incorporates a broad grasp of the context and may be further customized to be used in a new NLP task. The majority of pre-trained models are trained on corpora from general domains, such as Twitter, newswire, Wikipedia, and Web. Such off-the-shelf NLP models trained on general text may be inefficient and inaccurate in specialized fields. In this paper, we propose a cybersecurity language model called SecureBERT, which is able to capture the text connotations in the cybersecurity domain, and therefore could further be used in automation for many important cybersecurity tasks that would otherwise rely on human expertise and tedious manual efforts. SecureBERT is trained on a large corpus of cybersecurity text collected and preprocessed by us from a variety of sources in cybersecurity and the general computing domain. Using our proposed methods for tokenization and model weights adjustment, SecureBERT is not only able to preserve the understanding of general English as most pre-trained language models can do, but also effective when applied to text that has cybersecurity implications.
翻訳日:2022-04-07 13:05:27 公開日:2022-04-06
# DouZero+: 対向モデリングとコーチ誘導学習によるDouDizhu AIの改善

DouZero+: Improving DouDizhu AI by Opponent Modeling and Coach-guided Learning ( http://arxiv.org/abs/2204.02558v1 )

ライセンス: Link先を確認
Youpeng Zhao, Jian Zhao, Xunhan Hu, Wengang Zhou, Houqiang Li(参考訳) 近年、様々な完全かつ不完全な情報ゲームにおいて、深層強化学習(DRL)の大きなブレークスルーが見られた。 これらのゲームの中で、中国で人気のカードゲームであるDouDizhuは、不完全な情報、大きな州空間、コラボレーションの要素、そしてターンからターンへの膨大な移動のために、非常に難しい。 近年,DouZeroと呼ばれるDouDizhu AIシステムが提案されている。 従来のモンテカルロ法とディープニューラルネットワーク、そして人間の事前知識を抽象化しない自己再生手順を使って訓練されたdouzeroは、既存のdoudizhu aiプログラムをすべて上回っている。 本稿では,douzeroに対向モデルを導入することでdouzeroを強化することを提案する。 さらに,DouZeroの性能向上とトレーニングプロセスの高速化を目的とした,新しいコーチングネットワークを提案する。 上記の2つの技術をdouzeroに統合することで、当社のdoudizhu aiシステムは、douzeroを含む400以上のaiエージェントのうち、botzoneのリードボードで上位にランクインします。

Recent years have witnessed the great breakthrough of deep reinforcement learning (DRL) in various perfect and imperfect information games. Among these games, DouDizhu, a popular card game in China, is very challenging due to the imperfect information, large state space, elements of collaboration and a massive number of possible moves from turn to turn. Recently, a DouDizhu AI system called DouZero has been proposed. Trained using traditional Monte Carlo method with deep neural networks and self-play procedure without the abstraction of human prior knowledge, DouZero has outperformed all the existing DouDizhu AI programs. In this work, we propose to enhance DouZero by introducing opponent modeling into DouZero. Besides, we propose a novel coach network to further boost the performance of DouZero and accelerate its training process. With the integration of the above two techniques into DouZero, our DouDizhu AI system achieves better performance and ranks top in the Botzone leaderboard among more than 400 AI agents, including DouZero.
翻訳日:2022-04-07 13:04:59 公開日:2022-04-06
# 学術と産業のオートグラフのギャップを埋める - KDDカップ2020におけるオートグラフチャレンジの分析

Bridging the Gap of AutoGraph between Academia and Industry: Analysing AutoGraph Challenge at KDD Cup 2020 ( http://arxiv.org/abs/2204.02625v1 )

ライセンス: Link先を確認
Zhen Xu, Lanning Wei, Huan Zhao, Rex Ying, Quanming Yao, Wei-Wei Tu, Isabelle Guyon(参考訳) グラフ構造化データは日常生活や科学の分野で広く利用されており、注目を集めている。 グラフニューラルネットワーク(GNN)はグラフ構造化データのモデリングに有効であることが証明されており、GNNアーキテクチャの多くのバリエーションが提案されている。 しかし、異なるデータセットに依存するアーキテクチャを調整するには、多くの人的努力が必要となる。 研究者は自然にグラフ学習に機械学習を導入し、人間の労力を削減し、一般的に最高のパフォーマンスのGNNを実現することを目的としている。 GNN実践者の自動化ソリューションを理解するため、我々はKDD Cup 2020でAutoGraph Challengeを組織し、ノード分類のためのグラフ自動ニューラルネットワークを強調した。 特に、すでにgithubでオープンソース化されているmeituan、alibaba、twitterといった産業技術企業から、トップソリューションを受け取りました。 After detailed comparisons with solutions from academia, we quantify the gaps between academia and industry on modeling scope, effectiveness and efficiency, and show that (1) academia AutoML for Graph solutions focus on GNN architecture search while industrial solutions, especially the winning ones in the KDD Cup, tend to obtain an overall solution (2) by neural architecture search only, academia solutions achieve on average 97.3% accuracy of industrial solutions (3) academia solutions are cheap to obtain with several GPU hours while industrial solutions take a few months' labors. アカデミック・ソリューションはパラメータもはるかに少ない。

Graph structured data is ubiquitous in daily life and scientific areas and has attracted increasing attention. Graph Neural Networks (GNNs) have been proved to be effective in modeling graph structured data and many variants of GNN architectures have been proposed. However, much human effort is often needed to tune the architecture depending on different datasets. Researchers naturally adopt Automated Machine Learning on Graph Learning, aiming to reduce the human effort and achieve generally top-performing GNNs, but their methods focus more on the architecture search. To understand GNN practitioners' automated solutions, we organized AutoGraph Challenge at KDD Cup 2020, emphasizing on automated graph neural networks for node classification. We received top solutions especially from industrial tech companies like Meituan, Alibaba and Twitter, which are already open sourced on Github. After detailed comparisons with solutions from academia, we quantify the gaps between academia and industry on modeling scope, effectiveness and efficiency, and show that (1) academia AutoML for Graph solutions focus on GNN architecture search while industrial solutions, especially the winning ones in the KDD Cup, tend to obtain an overall solution (2) by neural architecture search only, academia solutions achieve on average 97.3% accuracy of industrial solutions (3) academia solutions are cheap to obtain with several GPU hours while industrial solutions take a few months' labors. Academic solutions also contain much fewer parameters.
翻訳日:2022-04-07 13:04:39 公開日:2022-04-06
# 都市流予測のための時空間動的グラフ関係学習

Spatio-Temporal Dynamic Graph Relation Learning for Urban Metro Flow Prediction ( http://arxiv.org/abs/2204.02650v1 )

ライセンス: Link先を確認
Peng Xie, Minbo Ma, Tianrui Li, Shenggong Ji, Shengdong Du, Zeng Yu, Junbo Zhang(参考訳) 都市流の予測は,地下鉄運行計画,旅客流管理,個人旅行計画に非常に有用である。 しかし、2つの大きな課題に直面している。 まず、トランスファー駅やノントランスファー駅など、異なるメトロ駅は独自の交通パターンを持っている。 第二に、メトロステーションの複雑な時空間的動的関係をモデル化することは困難である。 これらの課題に対処するため,都市域の駅流れを予測する時空間動的グラフ関係学習モデル(STDGRL)を開発した。 まず,異なる局のトラフィックパターンをキャプチャする時空間ノード埋め込み表現モジュールを提案する。 第2に,動的グラフ関係学習モジュールを用いて,事前定義されたグラフ隣接行列を必要とせず,メトロステーション間の動的空間関係を学習する。 最後に, 長期メトロフロー予測のための変圧器を用いた長期関係予測モジュールを提案する。 北京、上海、重慶、杭州での大規模な実験が実施されている。 実験の結果,11基線以上の都市都市流量予測の利点が示された。

Urban metro flow prediction is of great value for metro operation scheduling, passenger flow management and personal travel planning. However, it faces two main challenges. First, different metro stations, e.g. transfer stations and non-transfer stations, have unique traffic patterns. Second, it is challenging to model complex spatio-temporal dynamic relation of metro stations. To address these challenges, we develop a spatio-temporal dynamic graph relational learning model (STDGRL) to predict urban metro station flow. First, we propose a spatio-temporal node embedding representation module to capture the traffic patterns of different stations. Second, we employ a dynamic graph relationship learning module to learn dynamic spatial relationships between metro stations without a predefined graph adjacency matrix. Finally, we provide a transformer-based long-term relationship prediction module for long-term metro flow prediction. Extensive experiments are conducted based on metro data in Beijing, Shanghai, Chongqing and Hangzhou. Experimental results show the advantages of our method beyond 11 baselines for urban metro flow prediction.
翻訳日:2022-04-07 13:04:16 公開日:2022-04-06
# PAnDR:デカップリング政策と環境表現によるオフライン体験から新しい環境への迅速な適応

PAnDR: Fast Adaptation to New Environments from Offline Experiences via Decoupling Policy and Environment Representations ( http://arxiv.org/abs/2204.02877v1 )

ライセンス: Link先を確認
Tong Sang, Hongyao Tang, Yi Ma, Jianye Hao, Yan Zheng, Zhaopeng Meng, Boyan Li, Zhen Wang(参考訳) 深層強化学習(DRL)は多くの複雑な意思決定問題に対する有望な解決策である。 それでも、環境の一般化における悪名高い弱点は、現実世界のシナリオにおけるDRLエージェントの広範な適用を妨げる。 最近の進歩はあったが、ほとんどの先行研究はトレーニング環境における十分なオンラインインタラクションを前提としている。 そこで、エージェントはまず、異なるダイナミクスを持つ環境で収集されたオフライン体験から学習し、その後、新しいダイナミクスを持つ環境でオンラインポリシー適応を行う。 本稿では、迅速な政策適応のための疎結合表現を用いた政策適応(PAnDR)を提案する。 オフライン学習では、環境表現と政策表現は、それぞれ対照的な学習と政策回復を通じて学習される。 これらの表現は相互情報最適化によってさらに洗練され、より分離され完成される。 学習した表現を用いて、ポリシーと環境の異なる組み合わせの値を計算するために、ポリシー-ダイナミクス値関数(PDVF) (Raileanu et al., 2020) ネットワークを訓練する。 オンライン適応フェーズでは、新しい環境で収集された経験から環境コンテキストが推測されるため、PDVFに対する勾配上昇によってポリシーが最適化される。 実験の結果,PAnDRはいくつかの代表的な政策適応問題において,既存のアルゴリズムよりも優れていることがわかった。

Deep Reinforcement Learning (DRL) has been a promising solution to many complex decision-making problems. Nevertheless, the notorious weakness in generalization among environments prevent widespread application of DRL agents in real-world scenarios. Although advances have been made recently, most prior works assume sufficient online interaction on training environments, which can be costly in practical cases. To this end, we focus on an \textit{offline-training-onl ine-adaptation} setting, in which the agent first learns from offline experiences collected in environments with different dynamics and then performs online policy adaptation in environments with new dynamics. In this paper, we propose Policy Adaptation with Decoupled Representations (PAnDR) for fast policy adaptation. In offline training phase, the environment representation and policy representation are learned through contrastive learning and policy recovery, respectively. The representations are further refined by mutual information optimization to make them more decoupled and complete. With learned representations, a Policy-Dynamics Value Function (PDVF) (Raileanu et al., 2020) network is trained to approximate the values for different combinations of policies and environments. In online adaptation phase, with the environment context inferred from few experiences collected in new environments, the policy is optimized by gradient ascent with respect to the PDVF. Our experiments show that PAnDR outperforms existing algorithms in several representative policy adaptation problems.
翻訳日:2022-04-07 13:04:01 公開日:2022-04-06
# 深層学習のための最近提案された活性化関数に関する調査

A survey on recently proposed activation functions for Deep Learning ( http://arxiv.org/abs/2204.02921v1 )

ライセンス: Link先を確認
Murilo Gustineli(参考訳) ニューラルネットワーク (artificial neural networks,ann) は、一般にニューラルネットワークと呼ばれ、人間の脳の生物学的構造に触発されて広く成功している機械学習アルゴリズムのクラスである。 ニューラルネットワークは、データから複雑な関数近似を学ぶ能力のために本質的に強力である。 この一般化能力は、画像認識、音声認識、自然言語処理などを含む多分野に影響を及ぼすことができる。 アクティベーション関数はニューラルネットワークの重要なサブコンポーネントである。 彼らは入力セットが与えられたネットワーク内のノードの出力を定義する。 本稿では、ニューラルネットワークにおけるアクティベーション関数の主な概念について論じる。ディープニューラルネットワークの簡単な紹介、アクティベーション関数とは何か、ニューラルネットワークでどのように使用されるのか、最も一般的な特性、アクティベーション関数の異なる種類、いくつかの課題、制限、そして、アクティベーション関数が直面する代替ソリューション、最終説明と一致する。

Artificial neural networks (ANN), typically referred to as neural networks, are a class of Machine Learning algorithms and have achieved widespread success, having been inspired by the biological structure of the human brain. Neural networks are inherently powerful due to their ability to learn complex function approximations from data. This generalization ability has been able to impact multidisciplinary areas involving image recognition, speech recognition, natural language processing, and others. Activation functions are a crucial sub-component of neural networks. They define the output of a node in the network given a set of inputs. This survey discusses the main concepts of activation functions in neural networks, including; a brief introduction to deep neural networks, a summary of what are activation functions and how they are used in neural networks, their most common properties, the different types of activation functions, some of the challenges, limitations, and alternative solutions faced by activation functions, concluding with the final remarks.
翻訳日:2022-04-07 13:03:40 公開日:2022-04-06
# 回帰のためのランダム予測高次元特徴に関する合意集約

Consensual Aggregation on Random Projected High-dimensional Features for Regression ( http://arxiv.org/abs/2204.02606v1 )

ライセンス: Link先を確認
Sothea Has (LPSM, UPMC)(参考訳) 本稿では,回帰予測のランダムに投影された高次元特徴に対するカーネルベースの合意アグリゲーションについて検討する。 このアグリゲーションスキームは2つのステップから構成される: 多数の回帰推定器によって与えられる予測の高次元的特徴は、第1ステップでJohnson-Lindenstraus s Lemmaを用いてランダムに小さな部分空間に投影され、第2ステップで投影された特徴に対してカーネルベースのコンセンサスアグリゲーションが実装される。 理論上, アグリゲーションスキームの性能は, 元の高次元特徴に実装されたアグリゲーションの性能に近いことを高い確率で示す。 さらに, この集約方式は, 異なる種類の機械が与える予測の非常に大きく, 高い相関性を有する特徴にその性能を保っていることを数値的に示す。 このアグリゲーション方式により、モデル選択やクロスバリデーションを使わずに、多数の冗長マシンを柔軟にマージできる。 提案手法の有効性は,様々な種類の合成データと実データを用いて評価したいくつかの実験によって示される。

In this paper, we present a study of a kernel-based consensual aggregation on randomly projected high-dimensional features of predictions for regression. The aggregation scheme is composed of two steps: the high-dimensional features of predictions, given by a large number of regression estimators, are randomly projected into a smaller subspace using Johnson-Lindenstraus s Lemma in the first step, and a kernel-based consensual aggregation is implemented on the projected features in the second step. We theoretically show that the performance of the aggregation scheme is close to the performance of the aggregation implemented on the original high-dimensional features, with high probability. Moreover, we numerically illustrate that the aggregation scheme upholds its performance on very large and highly correlated features of predictions given by different types of machines. The aggregation scheme allows us to flexibly merge a large number of redundant machines, plainly constructed without model selection or cross-validation. The efficiency of the proposed method is illustrated through several experiments evaluated on different types of synthetic and real datasets.
翻訳日:2022-04-07 13:02:30 公開日:2022-04-06
# 環境不均一性を考慮した連合強化学習

Federated Reinforcement Learning with Environment Heterogeneity ( http://arxiv.org/abs/2204.02634v1 )

ライセンス: Link先を確認
Hao Jin, Yang Peng, Wenhao Yang, Shusen Wang, Zhihua Zhang(参考訳) 我々は,フェデレート強化学習(FedRL)問題について検討し,エージェントと環境相互作用の過程で収集した軌跡を共有せずに,$n$エージェントがひとつの方針を協調的に学習する。 環境の不均一性の制約を強調します。つまり、これらの$n$エージェントに対応する$n$環境は、状態遷移が異なるのです。 すべての環境における全体的な性能を最適化する値関数やポリシー関数を得るために,フェデレートされた2つのRLアルゴリズム, \texttt{QAvg} と \texttt{PAvg} を提案する。 これらのアルゴリズムが準最適解に収束することを理論的に証明し、そのような準最適性はこれらの$n$環境がいかに異質であるかに依存する。 さらに,$n$環境を$n$ベクトルに埋め込むことでパーソナライズを実現するヒューリスティックを提案する。 パーソナライズヒューリスティックはトレーニングを改善するだけでなく、新しい環境へのより良い一般化を可能にする。

We study a Federated Reinforcement Learning (FedRL) problem in which $n$ agents collaboratively learn a single policy without sharing the trajectories they collected during agent-environment interaction. We stress the constraint of environment heterogeneity, which means $n$ environments corresponding to these $n$ agents have different state transitions. To obtain a value function or a policy function which optimizes the overall performance in all environments, we propose two federated RL algorithms, \texttt{QAvg} and \texttt{PAvg}. We theoretically prove that these algorithms converge to suboptimal solutions, while such suboptimality depends on how heterogeneous these $n$ environments are. Moreover, we propose a heuristic that achieves personalization by embedding the $n$ environments into $n$ vectors. The personalization heuristic not only improves the training but also allows for better generalization to new environments.
翻訳日:2022-04-07 13:02:09 公開日:2022-04-06
# ランダム特徴モデルにおける二重降下:一般凸正規化の精密漸近解析

Double Descent in Random Feature Models: Precise Asymptotic Analysis for General Convex Regularization ( http://arxiv.org/abs/2204.02678v1 )

ライセンス: Link先を確認
David Bosch, Ashkan Panahi, Ayca \"Ozcelikkale, Devdatt Dubhash(参考訳) 高速なコンベックス・ガウス・ミン=マックス理論(CGMT)を多段階に応用し,ランダム特徴(RF)モデルにおける二重降下現象の厳密な結果を示す。 この手法を用いて、任意の可分関数を含む幅広い凸正規化項の下で、RF回帰の一般化のための正確な漸近式を提供する。 さらに、弾性ネットとして知られる$\ell_1$と$\ell_2$正規化の場合の計算結果と、それに関する数値的研究について述べる。 我々は,予測能力の数値的検証を行い,非漸近状態においても予測誤差が正確であることを実験的に示す。

We prove rigorous results on the double descent phenomenon in random features (RF) model by employing the powerful Convex Gaussian Min-Max Theorem (CGMT) in a novel multi-level manner. Using this technique, we provide precise asymptotic expressions for the generalization of RF regression under a broad class of convex regularization terms including arbitrary separable functions. We further compute our results for the combination of $\ell_1$ and $\ell_2$ regularization case, known as elastic net, and present numerical studies about it. We numerically demonstrate the predictive capacity of our framework, and show experimentally that the predicted test error is accurate even in the non-asymptotic regime.
翻訳日:2022-04-07 13:01:51 公開日:2022-04-06
# 二分分類における偽陰性または偽陽性の最小化の強調

Emphasis on the Minimization of False Negatives or False Positives in Binary Classification ( http://arxiv.org/abs/2204.02526v1 )

ライセンス: Link先を確認
Sanskriti Singh(参考訳) 偽陰性や偽陽性などのバイナリ分類における特定のケースの最小化は、人間が現在の製品により多くの機械学習を実装し始めるにつれて、ますます重要になる。 特定のケースを減らすためのバイアスを課す方法はいくつかあるが、これらの方法はあまり効果的ではないため、モデルでの使用は最小限である。 この目的のために、モデル全体の性能やF1スコアを大幅に変更することなく、偽陰性または偽陽性を低減する新しい方法が導入された。 この方法は、モデルを事前トレーニングした後の入力の実値への慎重な変更を含む。 この手法は様々なデータセットに適用され、いくつかは他のデータよりも複雑である。 これらのデータセット上で複数のモデルアーキテクチャの実験を通じて、最良のモデルが見つかった。 すべてのモデルにおいて、F1スコアの大幅な低下なく、リコールまたは精度の向上、偽陰性または偽陽性の最小化が示された。

The minimization of specific cases in binary classification, such as false negatives or false positives, grows increasingly important as humans begin to implement more machine learning into current products. While there are a few methods to put a bias towards the reduction of specific cases, these methods aren't very effective, hence their minimal use in models. To this end, a new method is introduced to reduce the False Negatives or False positives without drastically changing the overall performance or F1 score of the model. This method involving the careful change to the real value of the input after pre-training the model. Presenting the results of this method being applied on various datasets, some being more complex than others. Through experimentation on multiple model architectures on these datasets, the best model was found. In all the models, an increase in the recall or precision, minimization of False Negatives or False Positives respectively, was shown without a large drop in F1 score.
翻訳日:2022-04-07 13:01:38 公開日:2022-04-06
# LilNetX:Extreme Model CompressionとStructured Sparsificationを備えた軽量ネットワーク

LilNetX: Lightweight Networks with EXtreme Model Compression and Structured Sparsification ( http://arxiv.org/abs/2204.02965v1 )

ライセンス: Link先を確認
Sharath Girish and Kamal Gupta and Saurabh Singh and Abhinav Shrivastava(参考訳) 本稿では,ニューラルネットワークのエンドツーエンド学習技術であるlilnetxについて紹介する。 事前の作業は一度に1つずつ問題にアプローチし、多くの場合、処理後や多段階のトレーニングを必要とするが、実用性は低く、大規模なデータセットやアーキテクチャではうまくスケールしない。 提案手法は,パラメータ空間における構造的間隔を増大させ,計算量を削減するとともに,モデルサイズを小さくするため,パラメータ空間内のネットワークパラメータの自己インフォームをペナルティ化する共同学習目標を構築する。 CIFAR-10データセットでも同様の精度を維持しながら、ResNet-20でトレーニングしたResNet-50で最大50%のモデルサイズと98%のモデル空間性を達成し、ImageNetでトレーニングしたResNet-50で42%の構造化された空間を、既存の最先端モデル圧縮手法と比較した。 コードはhttps://github.com/S harath-girish/LilNet Xで入手できる。

We introduce LilNetX, an end-to-end trainable technique for neural networks that enables learning models with specified accuracy-rate-comput ation trade-off. Prior works approach these problems one at a time and often require post-processing or multistage training which become less practical and do not scale very well for large datasets or architectures. Our method constructs a joint training objective that penalizes the self-information of network parameters in a reparameterized latent space to encourage small model size while also introducing priors to increase structured sparsity in the parameter space to reduce computation. We achieve up to 50% smaller model size and 98% model sparsity on ResNet-20 while retaining the same accuracy on the CIFAR-10 dataset as well as 35% smaller model size and 42% structured sparsity on ResNet-50 trained on ImageNet, when compared to existing state-of-the-art model compression methods. Code is available at https://github.com/S harath-girish/LilNet X.
翻訳日:2022-04-07 13:01:23 公開日:2022-04-06
# (参考訳) 問うべきことのモデル化による読み理解評価のための質問生成 [全文訳有]

Question Generation for Reading Comprehension Assessment by Modeling How and What to Ask ( http://arxiv.org/abs/2204.02908v1 )

ライセンス: CC0 1.0
Bilal Ghanem, Lauren Lutz Coleman, Julia Rivard Dexter, Spencer McIntosh von der Ohe, Alona Fyshe(参考訳) 読書は日常生活に不可欠なものであり、読書を学ぶことは多くの若い学習者にとって困難である。 授業中、教師は理解質問を使ってエンゲージメントを高め、読書のスキルをテストし、保持性を改善することができる。 歴史的には、このような質問は熟練した教師によって書かれたが、近年では言語モデルが理解の質問を生成するのに使われている。 しかし,既存の質問生成(QG)システムの多くは,テキストからリテラル質問を生成することに重点を置いており,生成した質問のタイプを制御する方法がない。 本稿では,推論質問が重要であり,抽出技術が使えない読み理解のためのQGについて検討する。 本稿では,従来のデータセットを活用する2段階モデル (HTA-WTA) を提案する。 本研究では,sbrc(story-based reading comprehension skills)を付記した質問を含む新しい読解データセットを提案する。 いくつかの実験で、HTA-WTAは、この新しいデータセット上で複数の強いベースラインを上回ります。 HTA-WTAモデルでは,深い推論を問うことで,強いSCRSの検証を行う。

Reading is integral to everyday life, and yet learning to read is a struggle for many young learners. During lessons, teachers can use comprehension questions to increase engagement, test reading skills, and improve retention. Historically such questions were written by skilled teachers, but recently language models have been used to generate comprehension questions. However, many existing Question Generation (QG) systems focus on generating literal questions from the text, and have no way to control the type of the generated question. In this paper, we study QG for reading comprehension where inferential questions are critical and extractive techniques cannot be used. We propose a two-step model (HTA-WTA) that takes advantage of previous datasets, and can generate questions for a specific targeted comprehension skill. We propose a new reading comprehension dataset that contains questions annotated with story-based reading comprehension skills (SBRCS), allowing for a more complete reader assessment. Across several experiments, our results show that HTA-WTA outperforms multiple strong baselines on this new dataset. We show that the HTA-WTA model tests for strong SCRS by asking deep inferential questions.
翻訳日:2022-04-07 12:59:07 公開日:2022-04-06
# KNN拡散:大規模検索による画像生成

KNN-Diffusion: Image Generation via Large-Scale Retrieval ( http://arxiv.org/abs/2204.02849v1 )

ライセンス: Link先を確認
Oron Ashual, Shelly Sheynin, Adam Polyak, Uriel Singer, Oran Gafni, Eliya Nachmani, Yaniv Taigman(参考訳) 大規模なテキスト画像データセットの可用性は、大規模な生成モデル(ddpmやトランスフォーマーなど)のトレーニングに非常に有用であることが示されているが、その出力は通常、入力テキストとトレーニングデータセットの両方の品質に依存する。 本研究では,大規模な検索手法,特にK-Nearest-Neighbors( KNN)探索が,新しいサンプルに適応するモデルをトレーニングするためにどのように利用できるかを示す。 適応する学習はいくつかの新しい機能を可能にする。 推測時に数十億のレコードを網羅することは極めて効率的であり、適切な大規模な生成モデルを訓練または記憶する必要が軽減される。 さらに、訓練済みモデルをテーブルに追加するだけで、新しいサンプルに調整することができる。 稀な概念は、たとえトレーニングセットに存在せずにも、生成モデルを変更することなく、テスト時間中に活用することができる。 拡散に基づくモデルでは,テキストと画像の融合マルチモーダルメトリックを活用し,画像のみを訓練する。 ベースライン手法と比較して,我々の世代は,自然画像の公開マルチモーダルデータセットと4億ステッカーの収集データセットを用いて,人間の評価と知覚スコアの両方において,技術結果の状態を達成している。

While the availability of massive Text-Image datasets is shown to be extremely useful in training large-scale generative models (e.g. DDPMs, Transformers), their output typically depends on the quality of both the input text, as well as the training dataset. In this work, we show how large-scale retrieval methods, in particular efficient K-Nearest-Neighbors (KNN) search, can be used in order to train a model to adapt to new samples. Learning to adapt enables several new capabilities. Sifting through billions of records at inference time is extremely efficient and can alleviate the need to train or memorize an adequately large generative model. Additionally, fine-tuning trained models to new samples can be achieved by simply adding them to the table. Rare concepts, even without any presence in the training set, can be then leveraged during test time without any modification to the generative model. Our diffusion-based model trains on images only, by leveraging a joint Text-Image multi-modal metric. Compared to baseline methods, our generations achieve state of the art results both in human evaluations as well as with perceptual scores when tested on a public multimodal dataset of natural images, as well as on a collected dataset of 400 million Stickers.
翻訳日:2022-04-07 12:38:59 公開日:2022-04-06
# 室内3次元シーンの簡易かつ効果的な合成

Simple and Effective Synthesis of Indoor 3D Scenes ( http://arxiv.org/abs/2204.02960v1 )

ライセンス: Link先を確認
Jing Yu Koh, Harsh Agrawal, Dhruv Batra, Richard Tucker, Austin Waters, Honglak Lee, Yinfei Yang, Jason Baldridge, Peter Anderson(参考訳) 没入型3D屋内シーンを1つ以上の画像から合成する問題について検討する。 本研究の目的は,3次元一貫性を維持しつつ入力画像から遠ざかる視点を含む,新しい視点から高解像度画像と映像を生成することである。 既存のアプローチは非常に複雑で、多くの個別に訓練されたステージとコンポーネントがある。 我々は,不完全な点雲の再投影からフル解像度のrgb-d画像へ直接マップする画像対画像ganを提案する。 Matterport3DとRealEstate10Kのデータセットでは、人間による評価やFIDスコアにおいて、従来の作業よりも大幅に優れています。 さらに,本モデルは生成的データ拡張に有用であることを示す。 トラジェクタで訓練された視覚言語ナビゲーション (vln) エージェントは, r2rベンチマークにおける技術ベースラインの状態よりも, 成功率を最大1.5%向上させる。 私たちのコードは、生成データの拡張と、下流のロボティクスや組み込みAIタスクへの応用を促進するために利用されます。

We study the problem of synthesizing immersive 3D indoor scenes from one or more images. Our aim is to generate high-resolution images and videos from novel viewpoints, including viewpoints that extrapolate far beyond the input images while maintaining 3D consistency. Existing approaches are highly complex, with many separately trained stages and components. We propose a simple alternative: an image-to-image GAN that maps directly from reprojections of incomplete point clouds to full high-resolution RGB-D images. On the Matterport3D and RealEstate10K datasets, our approach significantly outperforms prior work when evaluated by humans, as well as on FID scores. Further, we show that our model is useful for generative data augmentation. A vision-and-language navigation (VLN) agent trained with trajectories spatially-perturbed by our model improves success rate by up to 1.5% over a state of the art baseline on the R2R benchmark. Our code will be made available to facilitate generative data augmentation and applications to downstream robotics and embodied AI tasks.
翻訳日:2022-04-07 12:37:26 公開日:2022-04-06
# ラスト層再訓練はスプリアス相関に対するロバスト性に十分である

Last Layer Re-Training is Sufficient for Robustness to Spurious Correlations ( http://arxiv.org/abs/2204.02937v1 )

ライセンス: Link先を確認
Polina Kirichenko, Pavel Izmailov, Andrew Gordon Wilson(参考訳) ニューラルネットワーク分類器は、予測を行うために、バックグラウンドなどの単純なスプリアス機能に大きく依存する。 しかし,これらの場合においても,近年の知見とは対照的に,データの所望の属性に関連するコア機能を学習することが多い。 この知見に触発されて、単純なラストレイヤリトレーニングは、スプリアス相関ベンチマークで最先端のアプローチに匹敵するだけでなく、複雑さと計算コストを大幅に削減できることを示した。 さらに,大規模イメージネット学習モデルにおける最終層再トレーニングにより,背景情報やテクスチャ情報への依存度が著しく低下し,単一のgpu上でのトレーニング後,コバリアントシフトに対するロバスト性が向上することを示した。

Neural network classifiers can largely rely on simple spurious features, such as backgrounds, to make predictions. However, even in these cases, we show that they still often learn core features associated with the desired attributes of the data, contrary to recent findings. Inspired by this insight, we demonstrate that simple last layer retraining can match or outperform state-of-the-art approaches on spurious correlation benchmarks, but with profoundly lower complexity and computational expenses. Moreover, we show that last layer retraining on large ImageNet-trained models can also significantly reduce reliance on background and texture information, improving robustness to covariate shift, after only minutes of training on a single GPU.
翻訳日:2022-04-07 12:37:09 公開日:2022-04-06
# (参考訳) Fully-Connected Tensor Network重み付き最適化に基づく高次テンソル補完アルゴリズム [全文訳有]

A high-order tensor completion algorithm based on Fully-Connected Tensor Network weighted optimization ( http://arxiv.org/abs/2204.01732v2 )

ライセンス: CC BY 4.0
Peilin Yang, Yonghui Huang, Yuning Qiu, Weijun Sun, Guoxu Zhou(参考訳) テンソル補完は、欠落したデータを復元することを目的としており、ディープラーニングと信号処理における一般的な関心事の1つである。 高階テンソル分解アルゴリズムのうち、最近提案された完全連結テンソルネットワーク分解(FCTN)アルゴリズムが最も高度である。 本稿では、完全連結テンソルネットワーク(FCTN)分解の優れた表現を利用して、完全連結テンソルネットワーク重み付け最適化(FCTN-WOPT)と呼ばれる新しいテンソル完備化法を提案する。 このアルゴリズムは、FCTN分解から因子を初期化して完成テンソルの構成を行う。 重みテンソル,完成テンソル,不完全テンソルを合わせて損失関数を構築し,lmfgs勾配降下アルゴリズムを用いて完成テンソルを更新することで空間記憶の占有量を削減し,反復を高速化する。 最後に, 合成データと実データ(画像データと映像データの両方)による完成実験を行い, 高次テンソル補完に適用した場合のFCTN-WOPTの高度性能を示す。

Tensor completion aimes at recovering missing data, and it is one of the popular concerns in deep learning and signal processing. Among the higher-order tensor decomposition algorithms, the recently proposed fully-connected tensor network decomposition (FCTN) algorithm is the most advanced. In this paper, by leveraging the superior expression of the fully-connected tensor network (FCTN) decomposition, we propose a new tensor completion method named the fully connected tensor network weighted optization(FCTN-WOPT ). The algorithm performs a composition of the completed tensor by initialising the factors from the FCTN decomposition. We build a loss function with the weight tensor, the completed tensor and the incomplete tensor together, and then update the completed tensor using the lbfgs gradient descent algorithm to reduce the spatial memory occupation and speed up iterations. Finally we test the completion with synthetic data and real data (both image data and video data) and the results show the advanced performance of our FCTN-WOPT when it is applied to higher-order tensor completion.
翻訳日:2022-04-07 12:23:15 公開日:2022-04-06
# (参考訳) マルチモーダルヘイトフルミーム検出モデルの説明について [全文訳有]

On Explaining Multimodal Hateful Meme Detection Models ( http://arxiv.org/abs/2204.01734v2 )

ライセンス: CC BY 4.0
Ming Shan Hee, Roy Ka-Wei Lee, Wen-Haw Chong(参考訳) ヘイトフルミーム検出は,学術・産業研究コミュニティで大きな注目を集めている新しいマルチモーダルタスクである。 近年,学習済みの視覚言語モデルを用いてマルチモーダル分類作業を行い,その一部は有望な結果を得た。 しかし、これらの視覚言語モデルが憎悪的なミーム分類タスクに何を学ぶかは、まだ明らかではない。 例えば、これらのモデルが、憎しみのあるミームのマルチモーダル(画像とテキスト)におけるデロゲーションまたはスラー参照をキャプチャできるかどうかは不明である。 本稿では,この研究ギャップを埋めるために,憎悪なミーム分類タスクを実行する視覚言語モデルに対する理解を深めるための3つの研究課題を提案する。 画像モダリティは嫌悪感のあるミーム分類タスクに寄与し,視覚言語モデルでは視覚的テキストスラリー処理をある程度行うことができることがわかった。 誤差分析の結果,視覚言語モデルにバイアスが与えられ,偽陽性の予測が得られた。

Hateful meme detection is a new multimodal task that has gained significant traction in academic and industry research communities. Recently, researchers have applied pre-trained visual-linguistic models to perform the multimodal classification task, and some of these solutions have yielded promising results. However, what these visual-linguistic models learn for the hateful meme classification task remains unclear. For instance, it is unclear if these models are able to capture the derogatory or slurs references in multimodality (i.e., image and text) of the hateful memes. To fill this research gap, this paper propose three research questions to improve our understanding of these visual-linguistic models performing the hateful meme classification task. We found that the image modality contributes more to the hateful meme classification task, and the visual-linguistic models are able to perform visual-text slurs grounding to a certain extent. Our error analysis also shows that the visual-linguistic models have acquired biases, which resulted in false-positive predictions.
翻訳日:2022-04-07 12:13:26 公開日:2022-04-06
# (参考訳) 統一暗黙的神経スタイライゼーション [全文訳有]

Unified Implicit Neural Stylization ( http://arxiv.org/abs/2204.01943v2 )

ライセンス: CC BY 4.0
Zhiwen Fan, Yifan Jiang, Peihao Wang, Xinyu Gong, Dejia Xu, Zhangyang Wang(参考訳) 暗黙的な表現(例えば座標ベースのディープネットワーク)による視覚信号の表現は多くの視覚タスクで普及している。 様々な2dおよび3dシナリオに適用可能な一般的なアプローチを用いて、スタイル化された暗黙的な表現をトレーニングする。 本研究では,2次元座標に基づく表現,ニューラルラディアンス場,符号付き距離関数など,様々な暗黙関数に関するパイロット研究を行う。 我々のソリューションは、INSと呼ばれる統一暗黙的ニューラルスティル化フレームワークです。 バニラの暗黙の表現とは対照的に、INSは通常の暗黙の関数をスタイルの暗黙のモジュールとコンテンツ暗示のモジュールに分離し、スタイルの画像と入力シーンから表現を別々にエンコードする。 次にアマルガメーションモジュールを適用してこれらの情報を集約し、スタイリングされた出力を合成する。 3dシーンの幾何学を正則化するために,スタイリッシュなシーンの幾何学的忠実性を保つ新しい自己蒸留幾何学的一貫性損失を提案する。 複雑なシーンの新しいビュー合成、暗黙の面のスタイライゼーション、mlpによるフィッティング画像など、複数のタスク設定で包括的な実験が行われている。 さらに,学習表現が空間的にもスタイル的にも連続的であることを示し,異なるスタイル間を無益に補間し,新しい混合スタイルで画像を生成する。 より詳細なビュー合成結果については、プロジェクトページの動画を参照してください。

Representing visual signals by implicit representation (e.g., a coordinate based deep network) has prevailed among many vision tasks. This work explores a new intriguing direction: training a stylized implicit representation, using a generalized approach that can apply to various 2D and 3D scenarios. We conduct a pilot study on a variety of implicit functions, including 2D coordinate-based representation, neural radiance field, and signed distance function. Our solution is a Unified Implicit Neural Stylization framework, dubbed INS. In contrary to vanilla implicit representation, INS decouples the ordinary implicit function into a style implicit module and a content implicit module, in order to separately encode the representations from the style image and input scenes. An amalgamation module is then applied to aggregate these information and synthesize the stylized output. To regularize the geometry in 3D scenes, we propose a novel self-distillation geometry consistency loss which preserves the geometry fidelity of the stylized scenes. Comprehensive experiments are conducted on multiple task settings, including novel view synthesis of complex scenes, stylization for implicit surfaces, and fitting images using MLPs. We further demonstrate that the learned representation is continuous not only spatially but also style-wise, leading to effortlessly interpolating between different styles and generating images with new mixed styles. Please refer to the video on our project page for more view synthesis results: https://zhiwenfan.gi thub.io/INS.
翻訳日:2022-04-07 12:03:39 公開日:2022-04-06
# (参考訳) gp-bart:ガウス過程を用いた新しいベイズ加法回帰木アプローチ [全文訳有]

GP-BART: a novel Bayesian additive regression trees approach using Gaussian processes ( http://arxiv.org/abs/2204.02112v2 )

ライセンス: CC BY 4.0
Mateus Maia, Keefe Murphy, Andrew C. Parnell(参考訳) ベイズ加法的回帰木(Bayesian additive Regressive Tree, BART)モデルは、連続的に強い予測性能と不確かさを定量化する能力により、回帰タスクにおいて広範囲にかつうまく使用されるアンサンブル法である。 BARTは「弱」ツリーモデルと一連の縮小前のモデルを組み合わせることで、各ツリーはデータの変動性のごく一部を説明する。 しかし、平滑さの欠如と標準バートでの観測よりも共分散構造がないことは、そのような仮定が必要となる場合、性能が低下する可能性がある。 ガウス過程 (gaussian process) は, ガウス過程 (gaussian process, gp) を前提とするbartの拡張として, ベイズ加法回帰木 (gp-bart) を提案する。 シミュレーションおよび実データに基づくモデルを説明し,その性能を従来のモデリング手法と比較し,多くのシナリオでそれを上回っている。 我々のメソッドの実装はRパッケージのrGPBARTで、https://github.com/M ateusMaiaDS/gpbart.c omで利用可能です。

The Bayesian additive regression trees (BART) model is an ensemble method extensively and successfully used in regression tasks due to its consistently strong predictive performance and its ability to quantify uncertainty. BART combines "weak" tree models through a set of shrinkage priors, whereby each tree explains a small portion of the variability in the data. However, the lack of smoothness and the absence of a covariance structure over the observations in standard BART can yield poor performance in cases where such assumptions would be necessary. We propose Gaussian processes Bayesian additive regression trees (GP-BART) as an extension of BART which assumes Gaussian process (GP) priors for the predictions of each terminal node among all trees. We illustrate our model on simulated and real data and compare its performance to traditional modelling approaches, outperforming them in many scenarios. An implementation of our method is available in the R package rGPBART available at: https://github.com/M ateusMaiaDS/gpbart
翻訳日:2022-04-07 11:44:34 公開日:2022-04-06
# (参考訳) 時間変化制約によるFTRLの罰則 [全文訳有]

Penalised FTRL With Time-Varying Constraints ( http://arxiv.org/abs/2204.02197v2 )

ライセンス: CC BY 4.0
Douglas J. Leith, George Iosifidis(参考訳) 本稿では,古典的なFTRLアルゴリズムを拡張し,適応的なペナライゼーションによって時間的制約を包含する。 我々は,提案したPentalized FTRLアルゴリズムに対して,強いベンチマークである$\hat{X}^{max}_t$に対して,$O(\sqrt{t})$後悔と違反を達成するための十分な条件を確立する。 制約に関する事前の知識が欠如しているため、これはおそらく私たちが期待できる最大のベンチマークセットです。 我々の十分な条件は、それらが違反した場合、$O(\sqrt{t})$ regret and violationが達成されないような例が存在するという意味で必要である。 最上級の原始双対アルゴリズムと比較すると、Penalized FTRLは、$O(\sqrt{t})$ regret and violation performance が達成可能な問題のクラスを大幅に拡張する。

In this paper we extend the classical Follow-The-Regulariz ed-Leader (FTRL) algorithm to encompass time-varying constraints, through adaptive penalization. We establish sufficient conditions for the proposed Penalized FTRL algorithm to achieve $O(\sqrt{t})$ regret and violation with respect to strong benchmark $\hat{X}^{max}_t$. Lacking prior knowledge of the constraints, this is probably the largest benchmark set that we can reasonably hope for. Our sufficient conditions are necessary in the sense that when they are violated there exist examples where $O(\sqrt{t})$ regret and violation is not achieved. Compared to the best existing primal-dual algorithms, Penalized FTRL substantially extends the class of problems for which $O(\sqrt{t})$ regret and violation performance is achievable.
翻訳日:2022-04-07 11:23:52 公開日:2022-04-06
# 自己適応型3次元ポーズ推定のための非局所潜在関係蒸留

Non-Local Latent Relation Distillation for Self-Adaptive 3D Human Pose Estimation ( http://arxiv.org/abs/2204.01971v2 )

ライセンス: Link先を確認
Jogendra Nath Kundu, Siddharth Seth, Anirudh Jamkhandi, Pradyumna YM, Varun Jampani, Anirban Chakraborty, R. Venkatesh Babu(参考訳) 利用可能な3次元ポーズ推定アプローチは、強い(2D/3Dポーズ)または弱い(複数ビューまたは深さ)ペアによる監督の異なる形態を利用する。 合成ドメインまたはインスタディオドメインの保持により、新しいターゲット環境ごとにそのような監視を受けることは極めて不都合である。 そこで本稿では,ラベル付きソースドメインからのタスク知識の移動を目的とした,自己教師型適応問題として3Dポーズ学習を行った。 本稿では、画像からラテントへの2つの明示的なマッピングとラテント・トゥ・プレイスによる画像から目的への推論を提案する。 次に,不対のクロスモーダルサンプル,すなわち非対のターゲットビデオと非対の3dポーズシーケンスを整合させる手段として関係蒸留を導入する。 そこで本研究では,正の結合が局所的な近傍構造に制限される一般のコントラッシブな関係とは異なり,長距離潜在ポーズ相互作用を特徴付けるために,非局所関係の新たな集合を提案する。 さらに,最も効果的な関係集合を選択するために,非局所性を定量化する客観的な方法を提案する。 我々は,様々な自己適応設定を評価し,標準ベンチマークによる最先端の3次元ポーズ推定性能を示す。

Available 3D human pose estimation approaches leverage different forms of strong (2D/3D pose) or weak (multi-view or depth) paired supervision. Barring synthetic or in-studio domains, acquiring such supervision for each new target environment is highly inconvenient. To this end, we cast 3D pose learning as a self-supervised adaptation problem that aims to transfer the task knowledge from a labeled source domain to a completely unpaired target. We propose to infer image-to-pose via two explicit mappings viz. image-to-latent and latent-to-pose where the latter is a pre-learned decoder obtained from a prior-enforcing generative adversarial auto-encoder. Next, we introduce relation distillation as a means to align the unpaired cross-modal samples i.e. the unpaired target videos and unpaired 3D pose sequences. To this end, we propose a new set of non-local relations in order to characterize long-range latent pose interactions unlike general contrastive relations where positive couplings are limited to a local neighborhood structure. Further, we provide an objective way to quantify non-localness in order to select the most effective relation set. We evaluate different self-adaptation settings and demonstrate state-of-the-art 3D human pose estimation performance on standard benchmarks.
翻訳日:2022-04-07 11:02:02 公開日:2022-04-06
# 深層学習、確率勾配降下および拡散写像

Deep learning, stochastic gradient descent and diffusion maps ( http://arxiv.org/abs/2204.01365v2 )

ライセンス: Link先を確認
Carmina Fjellstr\"om and Kaj Nystr\"om(参考訳) 確率勾配降下(SGD)は、その計算効率のためにディープラーニングで広く使われているが、なぜSGDがこれほどうまく機能するのかを十分に理解することが大きな課題である。 過パラメータ深層ネットワークの損失景観におけるヘッセンの損失関数の固有値のほとんどがゼロに近いが、少数の固有値しか存在しないことが実証的に観察されている。 ゼロ固有値は対応する方向に沿ってゼロ拡散を示す。 これは、最小選択の過程が主にヘッシアンのトップ固有値に対応する比較的低次元の部分空間で起こることを示している。 パラメータ空間は非常に高次元であるが、これらの結果はsgdダイナミクスが主に低次元多様体上に存在することを示している。 本稿では,高次元パラメータ曲面の潜在的に深い理解を得るための,真にデータ駆動型アプローチを追求する。特にSGDによって追跡されたランドスケープは,最適化ランドスケープの(局所的な)低次元表現を探索するために,SGDや他の最適化器から生成されたデータを解析することによって,SGDによって追跡される。 探索の手段として、R. Coifman と共著者によって導入された拡散写像を用いる。

Stochastic gradient descent (SGD) is widely used in deep learning due to its computational efficiency but a complete understanding of why SGD performs so well remains a major challenge. It has been observed empirically that most eigenvalues of the Hessian of the loss functions on the loss landscape of over-parametrized deep networks are close to zero, while only a small number of eigenvalues are large. Zero eigenvalues indicate zero diffusion along the corresponding directions. This indicates that the process of minima selection mainly happens in the relatively low-dimensional subspace corresponding to top eigenvalues of the Hessian. Although the parameter space is very high-dimensional, these findings seems to indicate that the SGD dynamics may mainly live on a low-dimensional manifold. In this paper we pursue a truly data driven approach to the problem of getting a potentially deeper understanding of the high-dimensional parameter surface, and in particular of the landscape traced out by SGD, by analyzing the data generated through SGD, or any other optimizer for that matter, in order to possibly discovery (local) low-dimensional representations of the optimization landscape. As our vehicle for the exploration we use diffusion maps introduced by R. Coifman and coauthors.
翻訳日:2022-04-07 11:01:39 公開日:2022-04-06
# ハイブリッド予測符号化 - 推論,高速,低速化

Hybrid Predictive Coding: Inferring, Fast and Slow ( http://arxiv.org/abs/2204.02169v2 )

ライセンス: Link先を確認
Alexander Tschantz, Beren Millidge, Anil K Seth, Christopher L Buckley(参考訳) 予測符号化は皮質神経活動に影響を及ぼすモデルである。 予測誤差(prediction error) - 予測データと観測データの違いを逐次最小化することで知覚的信念を提供する。 この提案では暗黙的であり、知覚は複数の神経活動のサイクルを必要とするという考えである。 これは、複雑な物体認識を含む視覚知覚のいくつかの側面が、実質的な反復活動を妨げる高速な時間スケールで起こる初期の「フィードフォワード・スイープ」から生じるという証拠と矛盾している。 本稿では,フィードフォワードスイープを償却推論と解釈し,繰り返し処理を反復推論と解釈する。 本論文では,単目的関数の双対最適化という観点から,反復的および漸近的推論を原理的に結合したハイブリッド予測符号化ネットワークを提案する。 提案手法は, 局所ヘビアン更新規則を用いたベイズ推定を近似した, 生物学的に妥当なニューラルネットワークアーキテクチャで実装可能であることを示す。 このハイブリッド予測符号化モデルは,反復推論方式の文脈感性,精度,サンプル効率を維持しつつ,慣れ親しんだデータに対する迅速かつ計算上安価な知覚的推論を実現するという,漸近的推論と反復的推論の両方の利点を組み合わせることを実証する。 さらに、我々のモデルは本質的に不確実性に敏感であり、最小の計算費用を用いて正確な信念を得るために反復的および償却的推論を適応的にバランスしていることを示す。 ハイブリッド予測符号化は、視覚知覚中に観察されるフィードフォワードおよびリカレント活動の機能的関連性に関する新たな視点を提供し、視覚表現論の異なる側面に対する新たな洞察を提供する。

Predictive coding is an influential model of cortical neural activity. It proposes that perceptual beliefs are furnished by sequentially minimising "prediction errors" - the differences between predicted and observed data. Implicit in this proposal is the idea that perception requires multiple cycles of neural activity. This is at odds with evidence that several aspects of visual perception - including complex forms of object recognition - arise from an initial "feedforward sweep" that occurs on fast timescales which preclude substantial recurrent activity. Here, we propose that the feedforward sweep can be understood as performing amortized inference and recurrent processing can be understood as performing iterative inference. We propose a hybrid predictive coding network that combines both iterative and amortized inference in a principled manner by describing both in terms of a dual optimization of a single objective function. We show that the resulting scheme can be implemented in a biologically plausible neural architecture that approximates Bayesian inference utilising local Hebbian update rules. We demonstrate that our hybrid predictive coding model combines the benefits of both amortized and iterative inference -- obtaining rapid and computationally cheap perceptual inference for familiar data while maintaining the context-sensitivity, precision, and sample efficiency of iterative inference schemes. Moreover, we show how our model is inherently sensitive to its uncertainty and adaptively balances iterative and amortized inference to obtain accurate beliefs using minimum computational expense. Hybrid predictive coding offers a new perspective on the functional relevance of the feedforward and recurrent activity observed during visual perception and offers novel insights into distinct aspects of visual phenomenology.
翻訳日:2022-04-07 11:01:16 公開日:2022-04-06
# Dual-AI:グループ活動認識のためのデュアルパスアクタインタラクション学習

Dual-AI: Dual-path Actor Interaction Learning for Group Activity Recognition ( http://arxiv.org/abs/2204.02148v2 )

ライセンス: Link先を確認
Mingfei Han, David Junhao Zhang, Yali Wang, Rui Yan, Lina Yao, Xiaojun Chang, Yu Qiao(参考訳) 複数のアクター間の空間的時間的関係の学習はグループ活動認識に不可欠である。 異なるグループ活動は、しばしばビデオ内のアクター間の多様な相互作用を示す。 したがって、時空間的アクター進化の単一視点から複雑なグループ活動をモデル化することはしばしば困難である。 そこで本研究では,空間的および時間的トランスフォーマーを2つの相補的な順序で柔軟に配置し,時空間的経路の長所を統合してアクタ関係を高めるdualai(dualai)フレームワークを提案する。 さらに,Dual-AIの2つのインタラクティブパスの間に,MAC-Loss(Multiscale Actor Contrastive Loss)を導入する。 MAC-Lossは、フレームレベルとビデオレベルでの自己監督的アクター一貫性により、個々のアクター表現を効果的に区別し、異なるアクター間のアクション混乱を低減する。 その結果, この2重aiは, 異なるアクタの識別的特徴を融合することにより, グループ活動認識を促進することができる。 提案手法を評価するため,Volleyball, Collective Activity, NBAデータセットなど,広く使用されているベンチマークについて広範な実験を行った。 提案されたDual-AIは、これらすべてのデータセットで最先端のパフォーマンスを達成する。 50%のトレーニングデータを持つ提案されたDual-AIは、最近の多くのアプローチで100%トレーニングデータよりも優れています。 これにより、限定的な監視の困難なシナリオでさえも、グループアクティビティ認識のためのデュアルaiの一般化能力が保証される。

Learning spatial-temporal relation among multiple actors is crucial for group activity recognition. Different group activities often show the diversified interactions between actors in the video. Hence, it is often difficult to model complex group activities from a single view of spatial-temporal actor evolution. To tackle this problem, we propose a distinct Dual-path Actor Interaction (DualAI) framework, which flexibly arranges spatial and temporal transformers in two complementary orders, enhancing actor relations by integrating merits from different spatiotemporal paths. Moreover, we introduce a novel Multi-scale Actor Contrastive Loss (MAC-Loss) between two interactive paths of Dual-AI. Via self-supervised actor consistency in both frame and video levels, MAC-Loss can effectively distinguish individual actor representations to reduce action confusion among different actors. Consequently, our Dual-AI can boost group activity recognition by fusing such discriminative features of different actors. To evaluate the proposed approach, we conduct extensive experiments on the widely used benchmarks, including Volleyball, Collective Activity, and NBA datasets. The proposed Dual-AI achieves state-of-the-art performance on all these datasets. It is worth noting the proposed Dual-AI with 50% training data outperforms a number of recent approaches with 100% training data. This confirms the generalization power of Dual-AI for group activity recognition, even under the challenging scenarios of limited supervision.
翻訳日:2022-04-07 11:00:49 公開日:2022-04-06
# タスク指向対話システム評価のためのメタフォリカルユーザシミュレータ

Metaphorical User Simulators for Evaluating Task-oriented Dialogue Systems ( http://arxiv.org/abs/2204.00763v3 )

ライセンス: Link先を確認
Weiwei Sun and Shuyu Guo and Shuo Zhang and Pengjie Ren and Zhumin Chen and Maarten de Rijke and Zhaochun Ren(参考訳) タスク指向対話システム(TDS)は、主にオフラインまたは人間による評価によって評価される。 評価は、しばしばシングルターンまたは非常に時間集中に制限される。 代替として、ユーザ動作を模倣するユーザシミュレータにより、幅広いユーザ目標を考慮し、シミュレーションされた評価のための人間的な会話を生成することができる。 TDSの対話ポリシーを最適化し,限られた評価能力を有するため,既存のユーザシミュレータをTDS評価に利用することは困難である。 さらに,ユーザシミュレータの評価はオープンな課題である。 本研究では,エンド・ツー・エンドTDS評価のためのメタファ型ユーザシミュレータを提案する。 また,異なる機能を持つ対話システムを生成するための,テスタに基づく評価フレームワークを提案する。 ユーザシミュレータは,新しい項目に遭遇したときの事前知識を参照して,シミュレータの推論を支援するメタファ的ユーザモデルを構築している。 シミュレータと変種間の模擬相互作用をチェックすることでシミュレータの品質を推定する。 3つのTDSデータセットを用いて実験を行った。 メタファ的ユーザシミュレータは、3つのデータセット上のアジェンダベースのシミュレータやseq2seqモデルよりも手作業による評価との一貫性が優れています。

Task-oriented dialogue systems (TDSs) are assessed mainly in an offline setting or through human evaluation. The evaluation is often limited to single-turn or very time-intensive. As an alternative, user simulators that mimic user behavior allow us to consider a broad set of user goals to generate human-like conversations for simulated evaluation. Employing existing user simulators to evaluate TDSs is challenging as user simulators are primarily designed to optimize dialogue policies for TDSs and have limited evaluation capability. Moreover, the evaluation of user simulators is an open challenge. In this work, we proposes a metaphorical user simulator for endto-end TDS evaluation. We also propose a tester-based evaluation framework to generate variants, i.e., dialogue systems with different capabilities. Our user simulator constructs a metaphorical user model that assists the simulator in reasoning by referring to prior knowledge when encountering new items. We estimate the quality of simulators by checking the simulated interactions between simulators and variants. Our experiments are conducted using three TDS datasets. The metaphorical user simulator demonstrates better consistency with manual evaluation than Agenda-based simulator and Seq2seq model on three datasets; our tester framework demonstrates efficiency, and our approach demonstrates better generalization and scalability.
翻訳日:2022-04-07 11:00:28 公開日:2022-04-06
# MRIを用いたマルチタスクデカップリング学習によるアルツハイマー病の検出とMMSEスコア予測:マルチサイト検証

MRI-based Multi-task Decoupling Learning for Alzheimer's Disease Detection and MMSE Score Prediction: A Multi-site Validation ( http://arxiv.org/abs/2204.01708v2 )

ライセンス: Link先を確認
Xu Tian, Jin Liu, Hulin Kuang, Yu Sheng, Jianxin Wang and The Alzheimer's Disease Neuroimaging Initiative(参考訳) アルツハイマー病(AD)の正確な検出とMMSE(Mini-mental state examination)スコアの予測は,MRI(MRI)による高齢者の健康管理において重要な課題である。 これら2つのタスクの以前の方法のほとんどは、シングルタスク学習に基づいており、それら間の相関を考慮することは滅多にない。 AD診断の重要な基礎であるMMSEスコアは、認知障害の進行を反映できるため、これらの2つの課題にマルチタスク学習手法を適用し始めた研究もある。 しかし,これらの手法では,機能相関の活用が課題となっている。 この課題を包括的に解決するために,AD検出とMMSEスコア予測のためのMRIに基づくマルチタスク分離学習手法を提案する。 まず,2つのタスクのバックボーン間に3つのマルチタスクインタラクション層を追加することで,特徴相関を利用した広告検出とmmseスコア予測を実現するマルチタスク学習ネットワークを提案する。 各マルチタスク相互作用層は、2つの機能分離モジュールと1つの機能相互作用モジュールを含む。 さらに,特徴デカップリングモジュールによって選択された特徴のタスク間の一般化を促進するため,特徴整合損失制約機能デカップリングモジュールを提案する。 最後に、mmseスコアの特定の分布情報を異なるグループで活用するために、モデル性能をさらに高めるために分布損失を提案する。 提案手法を多地点データセット上で評価する。 実験の結果,提案手法は単一タスク学習や他の既存手法よりも優れた性能を実現していることがわかった。

Accurately detecting Alzheimer's disease (AD) and predicting mini-mental state examination (MMSE) score are important tasks in elderly health by magnetic resonance imaging (MRI). Most of the previous methods on these two tasks are based on single-task learning and rarely consider the correlation between them. Since the MMSE score, which is an important basis for AD diagnosis, can also reflect the progress of cognitive impairment, some studies have begun to apply multi-task learning methods to these two tasks. However, how to exploit feature correlation remains a challenging problem for these methods. To comprehensively address this challenge, we propose a MRI-based multi-task decoupled learning method for AD detection and MMSE score prediction. First, a multi-task learning network is proposed to implement AD detection and MMSE score prediction, which exploits feature correlation by adding three multi-task interaction layers between the backbones of the two tasks. Each multi-task interaction layer contains two feature decoupling modules and one feature interaction module. Furthermore, to enhance the generalization between tasks of the features selected by the feature decoupling module, we propose the feature consistency loss constrained feature decoupling module. Finally, in order to exploit the specific distribution information of MMSE score in different groups, a distribution loss is proposed to further enhance the model performance. We evaluate our proposed method on multi-site datasets. Experimental results show that our proposed multi-task decoupled representation learning method achieves good performance, outperforming single-task learning and other existing state-of-the-art methods.
翻訳日:2022-04-07 11:00:06 公開日:2022-04-06
# サンプルベースリセットによる強化学習の自動化

Automating Reinforcement Learning with Example-based Resets ( http://arxiv.org/abs/2204.02041v2 )

ライセンス: Link先を確認
Jigang Kim, J. hyeon Park, Daesol Cho and H. Jin Kim(参考訳) 深層強化学習により、ロボットは最小から無の知識で環境相互作用から運動スキルを学習できるようになった。 しかし、既存の強化学習アルゴリズムでは、エージェントが各エピソードの最後に固定された初期状態分布にリセットし、繰り返し試行からエージェントを訓練するエピソード設定を前提としている。 このようなリセット機構は、シミュレーションタスクでは簡単なものの、現実のロボットタスクでは難しい。 ロボットシステムのリセットは、ロボットの自律学習の目標と矛盾する、広範な人間の監督とタスク固有の回避を必要とすることが多い。 本稿では,自己指導型リセット学習を付加するエージェントを導入することで,従来の強化学習をより大きな自律性に向けて拡張することを提案する。 リセットエージェントは、予めリセットをトリガーして手動リセットを防止し、フォワードエージェントのカリキュラムを暗黙的に強制する。 シミュレーションおよび実世界の連続制御タスクのスイートをスクラッチから学習するために本手法を適用し,リセットエージェントが手動リセットの削減に成功し,フォワードポリシーが時間とともに徐々に改善されることを実証する。

Deep reinforcement learning has enabled robots to learn motor skills from environmental interactions with minimal to no prior knowledge. However, existing reinforcement learning algorithms assume an episodic setting, in which the agent resets to a fixed initial state distribution at the end of each episode, to successfully train the agents from repeated trials. Such reset mechanism, while trivial for simulated tasks, can be challenging to provide for real-world robotics tasks. Resets in robotic systems often require extensive human supervision and task-specific workarounds, which contradicts the goal of autonomous robot learning. In this paper, we propose an extension to conventional reinforcement learning towards greater autonomy by introducing an additional agent that learns to reset in a self-supervised manner. The reset agent preemptively triggers a reset to prevent manual resets and implicitly imposes a curriculum for the forward agent. We apply our method to learn from scratch on a suite of simulated and real-world continuous control tasks and demonstrate that the reset agent successfully learns to reduce manual resets whilst also allowing the forward policy to improve gradually over time.
翻訳日:2022-04-07 10:58:09 公開日:2022-04-06
# SemanticCAP: 言語モデルから学ぶ機能によって強化されたクロマチンアクセシビリティ予測

SemanticCAP: Chromatin Accessibility Prediction Enhanced by Features Learning from a Language Model ( http://arxiv.org/abs/2204.02130v2 )

ライセンス: Link先を確認
Yikang Zhang, Xiaomin Chu, Yelu Jiang, Hongjie Wu and Lijun Quan(参考訳) 多くの無機化合物や有機化合物がDNAと結合して複合体を形成し、その中の薬物関連分子が重要である。 クロマチンアクセシビリティーの変化は、薬物とDNAの相互作用に直接影響を及ぼすだけでなく、TFと転写調節因子のDNA結合能に影響を与えることにより、薬物耐性に関連する重要な遺伝子の発現を促進または阻害する。 しかし、測定のための生物学的実験技術は高価で時間を要する。 近年、ゲノムのアクセス可能な領域を特定するために、いくつかの計算手法が提案されている。 既存の計算モデルは、主に塩基配列の文脈情報を無視する。 これらの問題に対処するため、我々はSemanticCAPという新しいソリューションを提案しました。 遺伝子配列の文脈をモデル化する遺伝子言語モデルを導入し、遺伝子配列における特定の部位の効果的な表現を可能にする。 基本的に、遺伝子モデルが提供する機能をクロマチンアクセシビリティモデルにマージします。 プロセス中、私たちは機能融合をよりスムーズにする方法を設計しました。 公開ベンチマークの他のシステムと比較すると、我々のモデルはより良い性能を示した。

A large number of inorganic and organic compounds are able to bind DNA and form complexes, among which drug-related molecules are important. Chromatin accessibility changes not only directly affects drug-DNA interactions, but also promote or inhibit the expression of critical genes associated with drug resistance by affecting the DNA binding capacity of TFs and transcriptional regulators. However, Biological experimental techniques for measuring it are expensive and time consuming. In recent years, several kinds of computational methods have been proposed to identify accessible regions of the genome. Existing computational models mostly ignore the contextual information of bases in gene sequences. To address these issues, we proposed a new solution named SemanticCAP. It introduces a gene language model which models the context of gene sequences, thus being able to provide an effective representation of a certain site in gene sequences. Basically, we merge the features provided by the gene language model into our chromatin accessibility model. During the process, we designed some methods to make feature fusion smoother. Compared with other systems under public benchmarks, our model proved to have better performance.
翻訳日:2022-04-07 10:57:47 公開日:2022-04-06
# langevin diffusion: プライベートユークリッド(凸)最適化のためのほぼ普遍的なアルゴリズム

Langevin Diffusion: An Almost Universal Algorithm for Private Euclidean (Convex) Optimization ( http://arxiv.org/abs/2204.01585v2 )

ライセンス: Link先を確認
Arun Ganesh, Abhradeep Thakurta, Jalaj Upadhyay(参考訳) 本稿では,微分プライベートな経験的リスク最小化(dp-erm)と確率的凸最適化(dp-sco)の問題を再検討する。 本稿では,Langevinfusion (LD) と呼ばれる統計物理学からのよく研究された連続時間アルゴリズムが,DP-ERMとDP-SCOの双方に対して,$\epsilon$-DPと$(\epsilon,\delta)$- DPの下での最適なプライバシー/ユーティリティトレードオフを同時に提供することを示す。 LDの均一な安定性特性を用いることで、$\ell_2$-Lipschitz convex損失を$\epsilon$-DP(最大$\log n$ factor)の下での最適余剰集団リスクを保証する。 その過程で、独立した関心を持つ様々な技術ツールを提供しています。 一 隣り合う2つのデータセット上の損失関数を走らせるときのLDに対する新しいR\enyi分散 二 騒々しい確率勾配勾配(SGD)に対するシャミールと張に類似した最終定位LDに対する経験的リスク境界の超過及び 三 拡散が定常分布に何らかの合理的な意味で収束していないとき及び拡散がギブス分布の変種に収束しているときの二相超過リスク分析 我々の普遍性はLDの力学に大きく依存している。 定常分布に収束すると、$\epsilon$-DP の下で最適境界を得る。 非常に短時間の$\propto 1/p$ でのみ実行されると、$(\epsilon,\delta)$- dp 以下の最適境界が得られる。 ここで、$p$ はモデル空間の次元である。 本研究はDP連続時間最適化の体系的研究を開始する。 これは、離散時間DP最適化アルゴリズムの設計において、連続時間動的視点が新しいアルゴリズムの設計に役立っている非プライベートな設定と類似したものであると信じている。

In this paper we revisit the problem of differentially private empirical risk minimization (DP-ERM) and stochastic convex optimization (DP-SCO). We show that a well-studied continuous time algorithm from statistical physics called Langevin diffusion (LD) simultaneously provides optimal privacy/utility tradeoffs for both DP-ERM and DP-SCO under $\epsilon$-DP and $(\epsilon,\delta)$- DP. Using the uniform stability properties of LD, we provide the optimal excess population risk guarantee for $\ell_2$-Lipschitz convex losses under $\epsilon$-DP (even up to $\log n$ factors), thus improving on Asi et al. Along the way we provide various technical tools which can be of independent interest: i) A new R\'enyi divergence bound for LD when run on loss functions over two neighboring data sets, ii) Excess empirical risk bounds for last-iterate LD analogous to that of Shamir and Zhang for noisy stochastic gradient descent (SGD), and iii) A two phase excess risk analysis of LD, where the first phase is when the diffusion has not converged in any reasonable sense to a stationary distribution, and in the second phase when the diffusion has converged to a variant of Gibbs distribution. Our universality results crucially rely on the dynamics of LD. When it has converged to a stationary distribution, we obtain the optimal bounds under $\epsilon$-DP. When it is run only for a very short time $\propto 1/p$, we obtain the optimal bounds under $(\epsilon,\delta)$- DP. Here, $p$ is the dimensionality of the model space. Our work initiates a systematic study of DP continuous time optimization. We believe this may have ramifications in the design of discrete time DP optimization algorithms analogous to that in the non-private setting, where continuous time dynamical viewpoints have helped in designing new algorithms, including the celebrated mirror-descent and Polyak's momentum method.
翻訳日:2022-04-07 10:57:32 公開日:2022-04-06
# 高次元不確かさに対するテスト:深度重要度サンプリングによる自動運転車の高速化評価

Test Against High-Dimensional Uncertainties: Accelerated Evaluation of Autonomous Vehicles with Deep Importance Sampling ( http://arxiv.org/abs/2204.02351v2 )

ライセンス: Link先を確認
Mansur Arief, Zhepeng Cen, Zhenyuan Liu, Zhiyuang Huang, Henry Lam, Bo Li, Ding Zhao(参考訳) 自律走行車(av)とその複雑なサブシステムの性能を自然環境下で高精度に評価することは、特に障害や危険な場合において、課題である。 rarityは,信頼性の高い推定を実現するために,膨大なサンプルサイズを必要とするだけでなく,真の障害率の危険な過小評価を引き起こし,検出が極めて困難である。 一方、正確性保証を備えた最先端のアプローチでは、特定の条件下での障害率の上限を計算するだけで、実用性を制限することができる。 本研究では,深層ニューラルネットワークを用いた深層重み付きサンプリング(deep is)フレームワークを提案する。これは最先端のisと同等の効率で,必要なサンプルサイズを平均サンプリング法より43倍小さくし,10%の相対誤差を達成し,より保守性の低い推定値を生成することができる。 我々は,最先端の交通標識分類器の誤分類率を推定する高次元実験により,目標が極めて小さい場合でもその効率は依然として持続し,600倍以上の効率向上を達成していることを明らかにした。 これはディープISが高次元の不確実性に対してさえ正確な見積もりを提供する可能性を強調している。

Evaluating the performance of autonomous vehicles (AV) and their complex subsystems to high precision under naturalistic circumstances remains a challenge, especially when failure or dangerous cases are rare. Rarity does not only require an enormous sample size for a naive method to achieve high confidence estimation, but it also causes dangerous underestimation of the true failure rate and it is extremely hard to detect. Meanwhile, the state-of-the-art approach that comes with a correctness guarantee can only compute an upper bound for the failure rate under certain conditions, which could limit its practical uses. In this work, we present Deep Importance Sampling (Deep IS) framework that utilizes a deep neural network to obtain an efficient IS that is on par with the state-of-the-art, capable of reducing the required sample size 43 times smaller than the naive sampling method to achieve 10% relative error and while producing an estimate that is much less conservative. Our high-dimensional experiment estimating the misclassification rate of one of the state-of-the-art traffic sign classifiers further reveals that this efficiency still holds true even when the target is very small, achieving over 600 times efficiency boost. This highlights the potential of Deep IS in providing a precise estimate even against high-dimensional uncertainties.
翻訳日:2022-04-07 10:56:57 公開日:2022-04-06