このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220817となっている論文です。

PDF登録状況(公開日: 20220817)

TitleAuthorsAbstract論文公表日・翻訳日
# オントロジー下におけるラベル付きデータ例の論理的分離性

Logical Separability of Labeled Data Examples under Ontologies ( http://arxiv.org/abs/2007.01610v2 )

ライセンス: Link先を確認
Jean Christoph Jung, Carsten Lutz, Hadrien Pulcini, Frank Wolter(参考訳) ラベル付きデータ項目の形式で与えられる正と負の例を分離する論理式を見つけることは、概念学習、データベースクエリのリバースエンジニアリング、参照式の生成、知識グラフにおけるエンティティ比較などのアプリケーションにおいて基礎となる。 本稿では,オントロジーの存在下でのデータの分離式の存在について検討する。 オントロジー言語と分離言語については、一階述語論理とそれに続く重要な断片、例えば、記述ロジック $\mathcal{ALCI}$、ガードされたフラグメント、2変数のフラグメント、ガードされた否定フラグメントに重点を置いています。 分離のために、連結クエリ(結合)も検討する。 否定的な例の扱いと、分離を達成するために追加のヘルパーシンボルの使用を認めるか否かで異なるいくつかの分離性について考察する。 本研究の主な成果は、分離可能性のモデル理論的特徴付け、異なる言語の分離能力の比較、分離性を決定する計算複雑性の調査である。

Finding a logical formula that separates positive and negative examples given in the form of labeled data items is fundamental in applications such as concept learning, reverse engineering of database queries, generating referring expressions, and entity comparison in knowledge graphs. In this paper, we investigate the existence of a separating formula for data in the presence of an ontology. Both for the ontology language and the separation language, we concentrate on first-order logic and the following important fragments thereof: the description logic $\mathcal{ALCI}$, the guarded fragment, the two-variable fragment, and the guarded negation fragment. For separation, we also consider (unions of) conjunctive queries. We consider several forms of separability that differ in the treatment of negative examples and in whether or not they admit the use of additional helper symbols to achieve separation. Our main results are model-theoretic characterizations of (all variants of) separability, the comparison of the separating power of different languages, and the investigation of the computational complexity of deciding separability.
翻訳日:2022-11-14 05:56:41 公開日:2022-08-17
# 共同医療関係抽出のための双方向木タギング方式

A Bidirectional Tree Tagging Scheme for Joint Medical Relation Extraction ( http://arxiv.org/abs/2008.13339v3 )

ライセンス: Link先を確認
Xukun Luo, Weijie Liu, Meng Ma and Ping Wang(参考訳) 共同医療関係抽出とは、医療テキストから1つのモデルで3つの実体と関係を抽出することである。 解決策の1つは、このタスクをシーケンシャルなタグ付けタスクに変換することである。 しかし、既存の研究では、三重項を線形に表現・タグ付けする方法は重複三重項に失敗し、三重項をグラフとして整理する方法は大規模な計算作業の課題に直面した。 本稿では, 医学テキスト中の木のような関係構造に着想を得て, 医学関係を2つの二分木に分類し, 単語レベルのタグ配列に変換する, Bidirectional Tree Tagging (BiTT) という新しい手法を提案する。 BiTT の手法に基づいて,BiTT タグを予測し,医療用トリプルを効率的に抽出する結合関係抽出モデルを開発した。 2つの医療データセットのf1スコアにおいて,本モデルは最高のベースラインを2.0\%,2.5\%上回っている。 さらに、bittスキームを持つモデルは、他のドメインの3つのパブリックデータセットで有望な結果を得ることができます。

Joint medical relation extraction refers to extracting triples, composed of entities and relations, from the medical text with a single model. One of the solutions is to convert this task into a sequential tagging task. However, in the existing works, the methods of representing and tagging the triples in a linear way failed to the overlapping triples, and the methods of organizing the triples as a graph faced the challenge of large computational effort. In this paper, inspired by the tree-like relation structures in the medical text, we propose a novel scheme called Bidirectional Tree Tagging (BiTT) to form the medical relation triples into two two binary trees and convert the trees into a word-level tags sequence. Based on BiTT scheme, we develop a joint relation extraction model to predict the BiTT tags and further extract medical triples efficiently. Our model outperforms the best baselines by 2.0\% and 2.5\% in F1 score on two medical datasets. What's more, the models with our BiTT scheme also obtain promising results in three public datasets of other domains.
翻訳日:2022-10-23 07:11:29 公開日:2022-08-17
# swp-leafnet:深層cnnに基づく植物葉同定のための新しい多段階的アプローチ

SWP-LeafNET: A novel multistage approach for plant leaf identification based on deep CNN ( http://arxiv.org/abs/2009.05139v2 )

ライセンス: Link先を確認
Ali Beikmohammadi, Karim Faez, Ali Motallebi(参考訳) 現代の科学的および技術的進歩により、植物学者は植物識別タスクにコンピュータビジョンに基づくアプローチを使用することができる。 これらのアプローチには独自の課題がある。 葉の分類は、植物種の自動識別のために行われるコンピュータビジョンのタスクであり、その大きさ、テクスチャ、形状、静脈など、葉の形態の変化による深刻な課題である。 近年,画像解析,物体認識,音声認識における深層学習手法の普及と実装の成功により,従来の特徴ベース手法よりも深層学習方式への傾きが高まっている。 本稿では,3つの深層学習モデルを用いて開発された最大行動類似性の高効率な手法を提案することで,植物学者の行動を葉識別でモデル化する。 3つのモデルの異なる層が可視化され、植物学者の行動が正確にモデル化されるようにする。 第1と第2のモデルはゼロから設計されている。 第3のモデルでは、事前トレーニングされたアーキテクチャであるMobileNetV2が転送学習技術と共に採用されている。 提案手法は,flavia と malayakew の2つのよく知られたデータセット上で評価される。 比較分析によると、提案手法は、99.67%と99.81%の精度で手作りの特徴抽出法や他のディープラーニング手法よりも正確である。 独自の複雑さを持ち、データセットに依存する従来の手法とは異なり、提案手法では手作りの特徴抽出は不要である。 また、他のディープラーニング技術と比べて精度が向上する。 さらに、swp-leafnetは他のメソッドよりも分散可能で、非同期にパラメータの少ない浅いモデルを使うため、かなり高速である。

Modern scientific and technological advances allow botanists to use computer vision-based approaches for plant identification tasks. These approaches have their own challenges. Leaf classification is a computer-vision task performed for the automated identification of plant species, a serious challenge due to variations in leaf morphology, including its size, texture, shape, and venation. Researchers have recently become more inclined toward deep learning-based methods rather than conventional feature-based methods due to the popularity and successful implementation of deep learning methods in image analysis, object recognition, and speech recognition. In this paper, to have an interpretable and reliable system, a botanist's behavior is modeled in leaf identification by proposing a highly-efficient method of maximum behavioral resemblance developed through three deep learning-based models. Different layers of the three models are visualized to ensure that the botanist's behavior is modeled accurately. The first and second models are designed from scratch. Regarding the third model, the pre-trained architecture MobileNetV2 is employed along with the transfer-learning technique. The proposed method is evaluated on two well-known datasets: Flavia and MalayaKew. According to a comparative analysis, the suggested approach is more accurate than hand-crafted feature extraction methods and other deep learning techniques in terms of 99.67% and 99.81% accuracy. Unlike conventional techniques that have their own specific complexities and depend on datasets, the proposed method requires no hand-crafted feature extraction. Also, it increases accuracy as compared with other deep learning techniques. Moreover, SWP-LeafNET is distributable and considerably faster than other methods because of using shallower models with fewer parameters asynchronously.
翻訳日:2022-10-20 03:19:02 公開日:2022-08-17
# 画像ソース非依存な普遍的敵対的摂動生成の学習

Learning to Generate Image Source-Agnostic Universal Adversarial Perturbations ( http://arxiv.org/abs/2009.13714v4 )

ライセンス: Link先を確認
Pu Zhao, Parikshit Ram, Songtao Lu, Yuguang Yao, Djallel Bouneffouf, Xue Lin, Sijia Liu(参考訳) 深層学習モデルのロバスト性を検証するためには,逆向摂動が重要である。 universal adversarial perturbation (uap) は複数の画像を同時に攻撃することができ、より統一された脅威モデルを提供し、画像攻撃アルゴリズムを省略する。 しかし、既存のUAPジェネレータは、異なる画像ソース(例えば、異なる画像解像度)から画像が描画される場合、未開発である。 画像ソース間の真の普遍性に向けて、我々は、UAP生成のための二段階最適化と学習最適化(L2O)技術を活用して、攻撃成功率(ASR)を向上する、少数ショット学習のカスタマイズ事例として、UAP生成の新しい視点を取り入れた。 まず、UAPジェネレータをメタ学習するために、人気のあるモデル非依存メタラーニング(MAML)フレームワークを検討する。 しかし、MAMLフレームワークは画像ソースを直接的に攻撃するわけではなく、L2Oの別のメタ学習フレームワークと統合する必要がある。 UAPジェネレータのメタ学習方式 (i)プロジェクテッドグラディエントDescentのようなベースラインよりも性能(ASRが50%高い)が良い。 (ii)バニラL2OやMAMLフレームワーク(適用可能な場合)よりもパフォーマンスが(37%高速)、そして (iii) 異なる犠牲者モデルと画像データソースに対して同時にUAP生成を行うことができる。

Adversarial perturbations are critical for certifying the robustness of deep learning models. A universal adversarial perturbation (UAP) can simultaneously attack multiple images, and thus offers a more unified threat model, obviating an image-wise attack algorithm. However, the existing UAP generator is underdeveloped when images are drawn from different image sources (e.g., with different image resolutions). Towards an authentic universality across image sources, we take a novel view of UAP generation as a customized instance of few-shot learning, which leverages bilevel optimization and learning-to-optimize (L2O) techniques for UAP generation with improved attack success rate (ASR). We begin by considering the popular model agnostic meta-learning (MAML) framework to meta-learn a UAP generator. However, we see that the MAML framework does not directly offer the universal attack across image sources, requiring us to integrate it with another meta-learning framework of L2O. The resulting scheme for meta-learning a UAP generator (i) has better performance (50% higher ASR) than baselines such as Projected Gradient Descent, (ii) has better performance (37% faster) than the vanilla L2O and MAML frameworks (when applicable), and (iii) is able to simultaneously handle UAP generation for different victim models and image data sources.
翻訳日:2022-10-13 05:01:02 公開日:2022-08-17
# 決定木の品質多様性進化学習

Quality Diversity Evolutionary Learning of Decision Trees ( http://arxiv.org/abs/2208.12758v1 )

ライセンス: Link先を確認
Andrea Ferigo, Leonardo Lucio Custode and Giovanni Iacca(参考訳) 説明可能な機械学習の必要性に対処するために、現代の人工知能(AI)において最も重要な研究方向の1つが登場した。 現在のこの分野における支配的なパラダイムはブラックボックスモデル(一般的にはディープニューラルネットワークの形で)に基づいているが、これらのモデルには人間の直接的解釈性がない。 これは、高い関心が集まっている安全クリティカルなアプリケーションにおいて、AIの採用を妨げるものだ。 これらのアプリケーションでは、決定木のような設計モデルで説明できるのは、解釈可能性を提供するため、より適しているかもしれない。 最近の研究は2つのアプローチの利点を組み合わせるために、決定木と強化学習のハイブリッド化を提案している。 しかしこれまでのところ、これらの研究はハイブリッドモデルの最適化に重点を置いている。 本稿では,モデル複雑性と振る舞いの多様性の両方を捉えた特徴空間上のハイブリッドモデルの多様化にMAP-Elitesを適用する。 本手法をOpenAI Gymライブラリの2つのよく知られた制御問題に適用し,MAP-Elitesが提案する「照明」パターンについて検討し,既存の類似したアプローチと比較した。

Addressing the need for explainable Machine Learning has emerged as one of the most important research directions in modern Artificial Intelligence (AI). While the current dominant paradigm in the field is based on black-box models, typically in the form of (deep) neural networks, these models lack direct interpretability for human users, i.e., their outcomes (and, even more so, their inner working) are opaque and hard to understand. This is hindering the adoption of AI in safety-critical applications, where high interests are at stake. In these applications, explainable by design models, such as decision trees, may be more suitable, as they provide interpretability. Recent works have proposed the hybridization of decision trees and Reinforcement Learning, to combine the advantages of the two approaches. So far, however, these works have focused on the optimization of those hybrid models. Here, we apply MAP-Elites for diversifying hybrid models over a feature space that captures both the model complexity and its behavioral variability. We apply our method on two well-known control problems from the OpenAI Gym library, on which we discuss the "illumination" patterns projected by MAP-Elites, comparing its results against existing similar approaches.
翻訳日:2022-09-04 02:02:09 公開日:2022-08-17
# quechuaをナレッジグラフで最終ユーザーに近づける

Getting Quechua Closer to Final Users through Knowledge Graphs ( http://arxiv.org/abs/2208.12608v1 )

ライセンス: Link先を確認
Elwin Huaman and Jorge Luis Huaman and Wendi Huaman(参考訳) ケチュア語とケチュア語の知識は世界中の何百万もの人々や南米のいくつかの国に集まっている。 残念ながら、Quechuaコミュニティで利用可能なリソースはごくわずかで、主にPDF形式で保存されている。 本稿では, ケチュアの知識グラフを, ケチュアのコミュニティ, 研究者, 技術開発者に近づける試みとして構想し, 作成する。 現在、Quechua Knowledge Graphには553636のトリプルが格納されており、Web上でアクセス可能で、マシンで検索可能で、ユーザがキュレートできる。 Quechua Knowledge Graphのデプロイを紹介するために、ユースケースと今後の作業について説明する。

Quechua language and Quechua knowledge gather millions of people around the world and in several countries in South America. Unfortunately, there are only a few resources available to Quechua communities, and they are mainly stored in PDF format. In this paper, the Quechua Knowledge Graph is envisioned and generated as an effort to get Quechua closer to the Quechua communities, researchers, and technology developers. Currently, there are 553636 triples stored in the Quechua Knowledge Graph, which is accessible on the Web, retrievable by machines, and curated by users. To showcase the deployment of the Quechua Knowledge Graph, use cases and future work are described.
翻訳日:2022-09-04 02:01:48 公開日:2022-08-17
# 学習と検出と学習: mimo-ofdm受信処理のための構造学習と意思決定フィードバック

Learn to Detect and Detect to Learn: Structure Learning and Decision Feedback for MIMO-OFDM Receive Processing ( http://arxiv.org/abs/2208.09287v1 )

ライセンス: Link先を確認
Jiarui Xu, Lianjun Li, Lizhong Zheng, and Lingjia Liu(参考訳) MIMO-OFDM受信処理における大きな課題の1つは、非常に制限されたパイロットシンボルを効率よく効果的に利用して送信されたデータシンボルを検出することである。 近年の進歩は、限られたパイロットを効果的に活用する方法の調査に費やされている。 しかし、パイロットを利用する以外に、検出性能を向上させるためにデータシンボルを活用できることに気付きました。 そこで本稿では,貴重なパイロットシンボルから効率的に学習し,決定フィードバック(df)アプローチを用いて検出されたペイロードデータで動的に更新可能なrc-structnetというオンラインサブフレームベースアプローチを提案する。 ネットワークは、時間領域におけるリザーバコンピューティング(rc)モジュールと、周波数領域におけるニューラルネットワーク構造体から成る。 ネットワークのユニークな設計により、検出されたデータシンボルから学習することで、チャネルの変更によって動的に更新することができる。 動的伝送モードにおける検出におけるRC-StructNetの有効性とDFアプローチによるトレーニングオーバーヘッドの低減について実験を行った。

One of the major open challenges in MIMO-OFDM receive processing is how to efficiently and effectively utilize the extremely limited over-the-air pilot symbols to detect the transmitted data symbols. Recent advances have been devoted to investigating effective ways to utilize the limited pilots. However, we notice that besides exploiting the pilots, one can take advantage of the data symbols to improve the detection performance. Thus, this paper introduces an online subframe-based approach, namely RC-StructNet, that can efficiently learn from the precious pilot symbols and be dynamically updated with the detected payload data using the decision feedback (DF) approach. The network consists of a reservoir computing (RC) module in the time domain and a neural network StructNet in the frequency domain. The unique design of the network allows it to be dynamically updated with the changes of the channel by learning from the detected data symbols. Experiments demonstrate the effectiveness of RC-StructNet in detection under dynamic transmission modes and in reducing the training overhead requirement when taking the DF approach.
翻訳日:2022-08-22 17:43:33 公開日:2022-08-17
# ハイブリッド量子分類を用いた早期心疾患予測

Early heart disease prediction using hybrid quantum classification ( http://arxiv.org/abs/2208.08882v1 )

ライセンス: Link先を確認
Hanif Heidari and Gerhard Hellstern(参考訳) 心臓死亡率と心臓死亡率は、世界の公衆衛生と世界経済に大きな影響を及ぼす。 心臓病の早期予測は、心臓病死の軽減に不可欠である。 本稿では、心臓疾患早期発見のための2つの量子機械学習手法、すなわちハイブリッド量子ニューラルネットワークとハイブリッドランダムフォレスト量子ニューラルネットワークを提案する。 これらの手法はクリーブランドとスタットログのデータセットに適用される。 その結果,ハイブリッド量子ニューラルネットワークとハイブリッドランダムフォレスト量子ニューラルネットワークは,それぞれ高次元問題と低次元問題に適していることがわかった。 ハイブリッド量子ニューラルネットワークは外れ値データに敏感であり、ハイブリッドランダムフォレストは外れ値データに堅牢である。 異なる機械学習法との比較により、提案法は、クリーブランドデータセットとスタットログデータセットでそれぞれ96.43%と97.78%の曲線下領域が得られた早期心疾患予測に適していることが示された。

The rate of heart morbidity and heart mortality increases significantly which affect the global public health and world economy. Early prediction of heart disease is crucial for reducing heart morbidity and mortality. This paper proposes two quantum machine learning methods i.e. hybrid quantum neural network and hybrid random forest quantum neural network for early detection of heart disease. The methods are applied on the Cleveland and Statlog datasets. The results show that hybrid quantum neural network and hybrid random forest quantum neural network are suitable for high dimensional and low dimensional problems respectively. The hybrid quantum neural network is sensitive to outlier data while hybrid random forest is robust on outlier data. A comparison between different machine learning methods shows that the proposed quantum methods are more appropriate for early heart disease prediction where 96.43% and 97.78% area under curve are obtained for Cleveland and Statlog dataset respectively.
翻訳日:2022-08-19 14:18:08 公開日:2022-08-17
# EEG-BBNet:グラフ接続性を用いた脳生体計測のためのハイブリッドフレームワーク

EEG-BBNet: a Hybrid Framework for Brain Biometric using Graph Connectivity ( http://arxiv.org/abs/2208.08901v1 )

ライセンス: Link先を確認
Payongkit Lakhan, Nannapas Banluesombatkul, Natchaya Sricom, Korn Surapat, Ratha Rotruchiphong, Phattarapong Sawangjai, Tohru Yagi, Tulaya Limpiti, Theerawit Wilaiprasitporn(参考訳) 脳波(EEG)に基づく脳生体計測は、個人識別にますます利用されている。 従来の機械学習技術や現代のディープラーニング手法は有望な結果に応用されている。 本稿では,畳み込みニューラルネットワーク(CNN)とグラフ畳み込みニューラルネットワーク(GCNN)を統合するハイブリッドネットワークであるEEG-BBNetを提案する。 自動特徴抽出におけるCNNの利点とグラフ表現による脳波電極間の接続学習におけるGCNNの能力は共同で活用される。 本研究では, ユークリッド距離, ピアソン相関係数, 位相ロック値, 位相ラグ指数, Rho指数など, 様々な接続性指標について検討する。 提案手法の性能は,脳-コンピュータインタフェース(BCI)タスクからなるベンチマークデータセットを用いて評価し,他の最先端手法と比較した。 我々のモデルは、イベント関連電位(ERP)タスクにおけるすべてのベースラインを、セッション内データを用いて平均99.26%の正確な認識率で上回ります。 Pearsonの相関とRHO指数を用いたEEG-BBNetは最適な分類結果を提供する。 さらに,本モデルでは,セッション間およびタスク間データを用いた適応性の向上を示す。 また,電極数の少ない提案モデルの実用性についても検討した。 前頭葉領域の電極配置が最も適しており,性能低下は最小限であった。

Brain biometrics based on electroencephalography (EEG) have been used increasingly for personal identification. Traditional machine learning techniques as well as modern day deep learning methods have been applied with promising results. In this paper we present EEG-BBNet, a hybrid network which integrates convolutional neural networks (CNN) with graph convolutional neural networks (GCNN). The benefit of the CNN in automatic feature extraction and the capability of GCNN in learning connectivity between EEG electrodes through graph representation are jointly exploited. We examine various connectivity measures, namely the Euclidean distance, Pearson's correlation coefficient, phase-locked value, phase-lag index, and Rho index. The performance of the proposed method is assessed on a benchmark dataset consisting of various brain-computer interface (BCI) tasks and compared to other state-of-the-art approaches. We found that our models outperform all baselines in the event-related potential (ERP) task with an average correct recognition rates up to 99.26% using intra-session data. EEG-BBNet with Pearson's correlation and RHO index provide the best classification results. In addition, our model demonstrates greater adaptability using inter-session and inter-task data. We also investigate the practicality of our proposed model with smaller number of electrodes. Electrode placements over the frontal lobe region appears to be most appropriate with minimal lost in performance.
翻訳日:2022-08-19 14:16:47 公開日:2022-08-17
# 対人神経同期に基づく自閉症スペクトラム障害分類:教師なしグラフ表現学習を用いたdyadic neural biomarkerによる分類改善の可能性

Autism spectrum disorder classification based on interpersonal neural synchrony: Can classification be improved by dyadic neural biomarkers using unsupervised graph representation learning? ( http://arxiv.org/abs/2208.08902v1 )

ライセンス: Link先を確認
Christian Gerloff, Kerstin Konrad, Jana Kruppa, Martin Schulte-R\"uther, Vanessa Reindl(参考訳) 自閉症スペクトラム障害(ASD)分類のための機械学習の研究は、臨床診断を改善することを約束している。 しかし、最近の臨床画像研究では、ベンチマークデータセットを越えてのバイオマーカーの限定的な一般化が示されている。 神経画像におけるモデル複雑性とサンプルサイズの増加にもかかわらず、ALDの分類性能は臨床応用には程遠い。 これは、asdの初期のバイオマーカーを開発する上で、これらの障壁を乗り越える方法についての疑問を提起する。 ひとつのアプローチは、機械学習モデルでこの病気の理論的な基盤をどのように運用するかを再考することだ。 そこで我々は,非教師なしグラフ表現を導入し,ASDの中核的な側面の神経機構,二元的脳記録による社会的相互作用の障害,ハイパースキャン(hyperscanning)とよばれる機能の評価を行った。 提案手法は, 神経レベルでの社会的相互作用の欠如を捉えるのに適しており, 幼児や幼児に適用できるという点で, 既存の手法と異なる。 機能近赤外分光データによる最初の結果は、タスクに依存しない解釈可能なグラフ表現の潜在的な予測能力を示している。 ASDを分類するために神経レベルでの相互作用関連欠陥を活用するこの最初の試みは、将来、発達的なASDバイオマーカーを達成するために既存のモデルを強化する新しいアプローチや方法を促進する可能性がある。

Research in machine learning for autism spectrum disorder (ASD) classification bears the promise to improve clinical diagnoses. However, recent studies in clinical imaging have shown the limited generalization of biomarkers across and beyond benchmark datasets. Despite increasing model complexity and sample size in neuroimaging, the classification performance of ASD remains far away from clinical application. This raises the question of how we can overcome these barriers to develop early biomarkers for ASD. One approach might be to rethink how we operationalize the theoretical basis of this disease in machine learning models. Here we introduced unsupervised graph representations that explicitly map the neural mechanisms of a core aspect of ASD, deficits in dyadic social interaction, as assessed by dual brain recordings, termed hyperscanning, and evaluated their predictive performance. The proposed method differs from existing approaches in that it is more suitable to capture social interaction deficits on a neural level and is applicable to young children and infants. First results from functional-near infrared spectroscopy data indicate potential predictive capacities of a task-agnostic, interpretable graph representation. This first effort to leverage interaction-related deficits on neural level to classify ASD may stimulate new approaches and methods to enhance existing models to achieve developmental ASD biomarkers in the future.
翻訳日:2022-08-19 14:16:28 公開日:2022-08-17
# 複素値時空間グラフ畳み込みニューラルネットワークとその電力系統aiへの応用

Complex-Value Spatio-temporal Graph Convolutional Neural Networks and its Applications to Electric Power Systems AI ( http://arxiv.org/abs/2208.08485v1 )

ライセンス: Link先を確認
Tong Wu, Anna Scaglione, Daniel Arnold(参考訳) グラフ上の大規模構造化データの効率的な表現、予測、分析、可視化が注目されている。 これまでのところ、ほとんどの文献は実価値信号に焦点を合わせてきた。 しかし、信号はしばしばフーリエ領域で疎結合であり、それらに対するより情報的でコンパクトな表現は、元の実数値信号とは対照的にスペクトル成分の複素包絡を用いて得ることができる。 この事実に動機づけられて、本研究では、グラフ畳み込みニューラルネットワーク(gcn)を複素領域に一般化し、グラフフィルタ(gf)の定義に複素値グラフシフト演算子(gso)を組み込んで、複素値グラフ信号(gs)を処理可能にする理論を導出する。 開発された理論は時空間複雑なネットワークプロセスを扱うことができる。 複素数値GCNは、基礎となるグラフサポートの摂動、転送エラーの境界、および多重層によるエラー伝播のバウンダリに対して安定であることを示す。 次に、複雑なGCNを電力グリッド状態予測、電力グリッドサイバー攻撃検出およびローカライゼーションに適用する。

The effective representation, precessing, analysis, and visualization of large-scale structured data over graphs are gaining a lot of attention. So far most of the literature has focused on real-valued signals. However, signals are often sparse in the Fourier domain, and more informative and compact representations for them can be obtained using the complex envelope of their spectral components, as opposed to the original real-valued signals. Motivated by this fact, in this work we generalize graph convolutional neural networks (GCN) to the complex domain, deriving the theory that allows to incorporate a complex-valued graph shift operators (GSO) in the definition of graph filters (GF) and process complex-valued graph signals (GS). The theory developed can handle spatio-temporal complex network processes. We prove that complex-valued GCNs are stable with respect to perturbations of the underlying graph support, the bound of the transfer error and the bound of error propagation through multiply layers. Then we apply complex GCN to power grid state forecasting, power grid cyber-attack detection and localization.
翻訳日:2022-08-19 14:14:35 公開日:2022-08-17
# 物質加速プラットフォームのための物理コンピューティング

Physical Computing for Materials Acceleration Platforms ( http://arxiv.org/abs/2208.08566v1 )

ライセンス: Link先を確認
Erik Peterson, Alexander Lavin(参考訳) 技術宝くじ」は、利用可能なソフトウェアやハードウェアに適しており、必ずしも他の方向よりも優れているためではなく、ディープラーニングやgpuのシナジーから、都市デザインや自動運転車の切り離しまで、研究のアイデアや技術が他よりも優れていることを記述している。 SDL(Self-Driving Laboratories)の初期段階、特にMaterial Acceleration Platforms(MAP)として実装されている分野は、同じような落とし穴の危険にさらされている。 この白書では、MAPs研究プログラムの一環として、新しい素材の探索を加速する同じシミュレーションとAIツールが、根本的に新しいコンピュータ媒体の設計を可能にしていると論じている。 科学、メカトロニクス、汎用コンピューティングにおける既存のバイアスに制約される必要はなく、サイバー物理学習やクローズドループの自己最適化システムにおける進歩によって、エンジニアリング物理学の新しいベクトルを追求することができる。 本稿では,物理自体を用いて最適化問題を解くコンピュータを設計するためのシミュレーションベースのMAPプログラムについて概説する。 このようなシステムは、MAPのあらゆる種類に存在するハードウェア・ソフトウェア・基板・ユーザ情報損失を軽減し、コンピュータ問題とコンピュータ媒体間の完全な整合性を実現する。 我々は、初期の「物理コンピューティング(pc)-map」の進歩と、材料研究者とコンピュータ科学者の革新的なコラボレーションの新たな時代をもたらすことを期待する長期的なサイバー物理学r&dに向けた具体的なステップを提供する。

A ''technology lottery'' describes a research idea or technology succeeding over others because it is suited to the available software and hardware, not necessarily because it is superior to alternative directions--examples abound, from the synergies of deep learning and GPUs to the disconnect of urban design and autonomous vehicles. The nascent field of Self-Driving Laboratories (SDL), particularly those implemented as Materials Acceleration Platforms (MAPs), is at risk of an analogous pitfall: the next logical step for building MAPs is to take existing lab equipment and workflows and mix in some AI and automation. In this whitepaper, we argue that the same simulation and AI tools that will accelerate the search for new materials, as part of the MAPs research program, also make possible the design of fundamentally new computing mediums. We need not be constrained by existing biases in science, mechatronics, and general-purpose computing, but rather we can pursue new vectors of engineering physics with advances in cyber-physical learning and closed-loop, self-optimizing systems. Here we outline a simulation-based MAP program to design computers that use physics itself to solve optimization problems. Such systems mitigate the hardware-software-substrate-user information losses present in every other class of MAPs and they perfect alignment between computing problems and computing mediums eliminating any technology lottery. We offer concrete steps toward early ''Physical Computing (PC) -MAP'' advances and the longer term cyber-physical R&D which we expect to introduce a new era of innovative collaboration between materials researchers and computer scientists.
翻訳日:2022-08-19 14:03:37 公開日:2022-08-17
# タスク関連オートエンコーディング」は人間の神経科学のための機械学習を強化する

"Task-relevant autoencoding" enhances machine learning for human neuroscience ( http://arxiv.org/abs/2208.08478v1 )

ライセンス: Link先を確認
Seyedmehdi Orouji, Vincent Taschereau-Dumouchel, Aurelio Cortese, Brian Odegaard, Cody Cushing, Mouslim Cherkaoui, Mitsuo Kawato, Hakwan Lau, and Megan A. K. Peters(参考訳) 人間の神経科学において、機械学習は被験者の行動に関連する低次元の神経表現を明らかにするのに役立つ。 しかし、最先端のモデルは訓練に大規模なデータセットを必要とするため、しばしばサンプルが少ないが多くの入力次元を持つヒトの神経画像データに過度に適合する傾向がある。 ここでは、人間の神経科学で探す特徴が、被験者の行動に正確に関連しているという事実を生かした。 そこで我々は、TRACEによるタスク関連オートエンコーダを開発し、その動作関連性、分離可能な表現を、2つの重く切り詰められた機械学習データセットの標準オートエンコーダと比較した。 被験者が動物や物体を観察するfMRIデータを用いて,両モデルを評価した。 TRACEはオートエンコーダと生の入力の両方をほぼ一方的に上回り、分類精度が最大30%向上し、タスク関連表現の「クリーン」を3倍改善した。 これらの結果は、人間の行動に関連する幅広いデータに対するトレースの可能性を示している。

In human neuroscience, machine learning can help reveal lower-dimensional neural representations relevant to subjects' behavior. However, state-of-the-art models typically require large datasets to train, so are prone to overfitting on human neuroimaging data that often possess few samples but many input dimensions. Here, we capitalized on the fact that the features we seek in human neuroscience are precisely those relevant to subjects' behavior. We thus developed a Task-Relevant Autoencoder via Classifier Enhancement (TRACE), and tested its ability to extract behaviorally-relevant, separable representations compared to a standard autoencoder for two severely truncated machine learning datasets. We then evaluated both models on fMRI data where subjects observed animals and objects. TRACE outperformed both the autoencoder and raw inputs nearly unilaterally, showing up to 30% increased classification accuracy and up to threefold improvement in discovering "cleaner", task-relevant representations. These results showcase TRACE's potential for a wide variety of data related to human behavior.
翻訳日:2022-08-19 14:02:29 公開日:2022-08-17
# 勧告モデルのスケーリング法則を理解する

Understanding Scaling Laws for Recommendation Models ( http://arxiv.org/abs/2208.08489v1 )

ライセンス: Link先を確認
Newsha Ardalani, Carole-Jean Wu, Zeliang Chen, Bhargav Bhushanam, Adnan Aziz(参考訳) スケールは機械学習のパフォーマンス向上において大きな推進力であり、持続可能なモデル品質向上のための戦略的プランニング、長期リソース計画、大規模モデルをサポートする効率的なシステムインフラストラクチャの開発には、スケーリング法則を理解することが不可欠である。 本稿では,DLRMスタイルレコメンデーションモデル,特にClick-Through Rate(CTR)に対する経験的スケーリング法則について検討する。 モデルサイズ,データサイズ,トレーニングに使用する計算量などにおいて,モデル品質のスケールと電力法則が一定であることを観察した。 これらの軸に沿って異なるスケーリングスキームを比較することで,3つの異なるリソース次元,すなわちデータ,パラメータ,計算のスケーリング効率を特徴付ける。 パラメータスケーリングは、現在研究中のモデルアーキテクチャにとって絶大であり、より高いパフォーマンスのモデルアーキテクチャが現れるまで、データスケーリングが先進的な道であることを示す。 本研究が解決する重要な研究課題は次のとおりである。 推奨モデルは、スケーリング法則によって予測されるように持続的にスケールするだろうか? それとも、スケーリング法予測から遠く離れているのだろうか? スケーリングの限界は何ですか? 長期ハードウェア/システム開発におけるスケーリング法則の影響は?

Scale has been a major driving force in improving machine learning performance, and understanding scaling laws is essential for strategic planning for a sustainable model quality performance growth, long-term resource planning and developing efficient system infrastructures to support large-scale models. In this paper, we study empirical scaling laws for DLRM style recommendation models, in particular Click-Through Rate (CTR). We observe that model quality scales with power law plus constant in model size, data size and amount of compute used for training. We characterize scaling efficiency along three different resource dimensions, namely data, parameters and compute by comparing the different scaling schemes along these axes. We show that parameter scaling is out of steam for the model architecture under study, and until a higher-performing model architecture emerges, data scaling is the path forward. The key research questions addressed by this study include: Does a recommendation model scale sustainably as predicted by the scaling laws? Or are we far off from the scaling law predictions? What are the limits of scaling? What are the implications of the scaling laws on long-term hardware/system development?
翻訳日:2022-08-19 14:02:11 公開日:2022-08-17
# ObfuNAS: ニューラルネットワーク検索に基づくDNN難読化アプローチ

ObfuNAS: A Neural Architecture Search-based DNN Obfuscation Approach ( http://arxiv.org/abs/2208.08569v1 )

ライセンス: Link先を確認
Tong Zhou, Shaolei Ren, Xiaolin Xu(参考訳) ディープニューラルネットワーク(DNN)セキュリティにとって、悪意あるアーキテクチャ抽出が重要な懸念事項として浮上している。 防御として、犠牲者のDNNを別のアーキテクチャに再マップするために、アーキテクチャ難読化が提案されている。 それでも、難読化DNNアーキテクチャを抽出するだけで、敵は高い性能(例えば精度)で代替モデルを再訓練でき、難読化技術は効果がない。 この脆弱性を緩和するために、DNNアーキテクチャ難読化をニューラルネットワーク探索(NAS)問題に変換するObfuNASを提案する。 ObfuNASは機能保存の難読化戦略を組み合わせて、難読化DNNアーキテクチャが犠牲者よりも低い精度しか達成できないことを保証している。 我々はNAS-Bench-101やNAS-Bench-301のようなオープンソースのアーキテクチャデータセットを用いてObfuNASの性能を検証する。 実験の結果、ObfuNASは与えられたFLOPs制約内で被害者モデルに最適なマスクを見つけることができ、0.14倍のFLOPsオーバーヘッドしか持たない攻撃者に対して2.6%の推論精度の劣化をもたらすことが示された。 コードは、https://github.com/Tongzhou0101/ObfuNAS.comで入手できる。

Malicious architecture extraction has been emerging as a crucial concern for deep neural network (DNN) security. As a defense, architecture obfuscation is proposed to remap the victim DNN to a different architecture. Nonetheless, we observe that, with only extracting an obfuscated DNN architecture, the adversary can still retrain a substitute model with high performance (e.g., accuracy), rendering the obfuscation techniques ineffective. To mitigate this under-explored vulnerability, we propose ObfuNAS, which converts the DNN architecture obfuscation into a neural architecture search (NAS) problem. Using a combination of function-preserving obfuscation strategies, ObfuNAS ensures that the obfuscated DNN architecture can only achieve lower accuracy than the victim. We validate the performance of ObfuNAS with open-source architecture datasets like NAS-Bench-101 and NAS-Bench-301. The experimental results demonstrate that ObfuNAS can successfully find the optimal mask for a victim model within a given FLOPs constraint, leading up to 2.6% inference accuracy degradation for attackers with only 0.14x FLOPs overhead. The code is available at: https://github.com/Tongzhou0101/ObfuNAS.
翻訳日:2022-08-19 14:01:54 公開日:2022-08-17
# フェアネスの長期的ダイナミクス--データ駆動型目標支援が求職者に与える影響を理解する

Long-term dynamics of fairness: understanding the impact of data-driven targeted help on job seekers ( http://arxiv.org/abs/2208.08881v1 )

ライセンス: Link先を確認
Sebastian Scher, Simone Kopeinik, Andreas Tr\"ugler, Dominik Kowald(参考訳) 公共機関によるデータ主導型意思決定支援の利用はますます広まり、既に公共資源の配分に影響を与えている。 これは、少数民族や歴史的に差別された集団に悪影響を与えているため、倫理的な懸念を引き起こす。 本稿では,統計と機械学習と動的モデリングを組み合わせたアプローチを用いて,労働市場介入の長期的な公平性効果を評価する。 具体的には、対象とする支援を通じて求職者を選択的に支援する公共雇用機関による決定の影響を調査するモデルを開発し、活用する。 援助を受ける者の選択は、タイムリーな方法で職を見つける確率を推定するデータ駆動介入モデルに基づいており、労働市場に関連するスキルが2つのグループ(例えば、男性と女性)に不均一に分散されている人口を記述したデータに基づいている。 介入モデルは、個人の実際のスキルに不完全なアクセスを持ち、これを個人のグループアフィリエイトの知識で強化することができるため、予測精度を高めるために保護属性を使用する。 この介入モデルのダイナミクス(特にフェアネスに関連する問題と異なるフェアネス目標間のトレードオフ)を時間とともに評価し、グループアフィリエーションを予測機能として使用しない介入モデルと比較する。 このトレードオフを正しく定量化し、実世界でのシステムによる長期的な公平性効果を評価するためには、周囲の労働市場の慎重なモデリングが不可欠である。

The use of data-driven decision support by public agencies is becoming more widespread and already influences the allocation of public resources. This raises ethical concerns, as it has adversely affected minorities and historically discriminated groups. In this paper, we use an approach that combines statistics and machine learning with dynamical modeling to assess long-term fairness effects of labor market interventions. Specifically, we develop and use a model to investigate the impact of decisions caused by a public employment authority that selectively supports job-seekers through targeted help. The selection of who receives what help is based on a data-driven intervention model that estimates an individual's chances of finding a job in a timely manner and is based on data that describes a population in which skills relevant to the labor market are unevenly distributed between two groups (e.g., males and females). The intervention model has incomplete access to the individual's actual skills and can augment this with knowledge of the individual's group affiliation, thus using a protected attribute to increase predictive accuracy. We assess this intervention model's dynamics -- especially fairness-related issues and trade-offs between different fairness goals -- over time and compare it to an intervention model that does not use group affiliation as a predictive feature. We conclude that in order to quantify the trade-off correctly and to assess the long-term fairness effects of such a system in the real-world, careful modeling of the surrounding labor market is indispensable.
翻訳日:2022-08-19 13:58:55 公開日:2022-08-17
# 超音速研究の進化について-自然言語処理と機械学習の応用

On the evolution of research in hypersonics: application of natural language processing and machine learning ( http://arxiv.org/abs/2208.08507v1 )

ライセンス: Link先を確認
Ashkan Ebadi and Alain Auger and Yvan Gauthier(参考訳) ハイパーソニックの研究と開発は近年大きく進展し、様々な軍事的・商業的応用が実証されている。 いくつかの国の公共機関や民間組織は、競争相手を追い越し、戦略的優位性と抑止力を確保することを目的として、ハイパーソニックに投資している。 これらの組織にとって、新興テクノロジをタイムリーで信頼性の高い方法で識別できることが最重要です。 近年の情報技術の進歩により、大量のデータを分析し、隠れパターンを抽出し、意思決定者に新たな洞察を与えることが可能になった。 本研究では,2000~2020年におけるハイパーソニックスに関する学術論文に焦点をあて,自然言語処理と機械学習を用いて12の主要な潜在研究テーマを特定し,その時間的進化を分析する。 論文の類似性分析により,20年間にわたる研究のサイクルを示すパターンが明らかになった。 この研究は、研究分野の総合的な分析を提供し、研究テーマがアルゴリズムによって抽出されたという事実は、課題と時間間隔の一貫性のある比較を可能にする。

Research and development in hypersonics have progressed significantly in recent years, with various military and commercial applications being demonstrated increasingly. Public and private organizations in several countries have been investing in hypersonics, with the aim to overtake their competitors and secure/improve strategic advantage and deterrence. For these organizations, being able to identify emerging technologies in a timely and reliable manner is paramount. Recent advances in information technology have made it possible to analyze large amounts of data, extract hidden patterns, and provide decision-makers with new insights. In this study, we focus on scientific publications about hypersonics within the period of 2000-2020, and employ natural language processing and machine learning to characterize the research landscape by identifying 12 key latent research themes and analyzing their temporal evolution. Our publication similarity analysis revealed patterns that are indicative of cycles during two decades of research. The study offers a comprehensive analysis of the research field and the fact that the research themes are algorithmically extracted removes subjectivity from the exercise and enables consistent comparisons between topics and between time intervals.
翻訳日:2022-08-19 13:57:50 公開日:2022-08-17
# 重畳音を伴う確率的下次スキームの高確率境界

High Probability Bounds for Stochastic Subgradient Schemes with Heavy Tailed Noise ( http://arxiv.org/abs/2208.08567v1 )

ライセンス: Link先を確認
Daniela A. Parletta, Andrea Paudice, Massimiliano Pontil, Saverio Salzo(参考訳) 本研究では,尾部雑音下での確率的劣勾配法における高確率境界について検討する。 この場合、ノイズは、標準下次法が高い確率境界を持つことが知られているガウス分布とは対照的に、有限分散を持つと仮定される。 そこで我々は,提案手法のクリッピング版を解析し,大ノルムを持つと下次推定が途切れることを示した。 このクリッピング戦略は、多くの古典平均スキームの最適時限と有限地平線境界の両方をもたらすことを示した。 予備実験は, 本手法の有効性を裏付けるものである。

In this work we study high probability bounds for stochastic subgradient methods under heavy tailed noise. In this case the noise is only assumed to have finite variance as opposed to a sub-Gaussian distribution for which it is known that standard subgradient methods enjoys high probability bounds. We analyzed a clipped version of the projected stochastic subgradient method, where subgradient estimates are truncated whenever they have large norms. We show that this clipping strategy leads both to near optimal any-time and finite horizon bounds for many classical averaging schemes. Preliminary experiments are shown to support the validity of the method.
翻訳日:2022-08-19 13:56:32 公開日:2022-08-17
# CTRL:ラベルエラー検出のためのクラスタリングトレーニング損失

CTRL: Clustering Training Losses for Label Error Detection ( http://arxiv.org/abs/2208.08464v1 )

ライセンス: Link先を確認
Chang Yue and Niraj K. Jha(参考訳) 教師付き機械学習では、正確なラベルの使用は高い精度を保証するために極めて重要である。 残念ながら、ほとんどのデータセットにはラベルが破損している。 このようなデータセットでトレーニングされた機械学習モデルは、うまく一般化しない。 これにより、ラベルエラーの検出は、その有効性を著しく向上させることができる。 本稿では,マルチクラスデータセットにおけるラベルエラーを検出するctrl(clustering training loss for label error detection)と呼ばれる新しいフレームワークを提案する。 モデルが異なる方法でクリーンでノイズの多いラベルを学習する観察に基づいて、ラベルエラーを2つのステップで検出する。 まず,ノイズトレーニングデータセットを用いてニューラルネットワークをトレーニングし,各サンプルの損失曲線を得る。 次に,グループサンプルの学習損失にクラスタリングアルゴリズムを適用し,クリーンラベルとノイズラベルの2つのカテゴリに分類した。 ラベル誤り検出後、ノイズラベル付きサンプルを除去し、モデルを再訓練する。 実験により, 画像(CIFAR-10, CIFAR-100)と表状データセットの両方に対して, シミュレーションノイズ下での誤り検出精度を示す。 また、CTRLがなぜうまく機能するのかを理論的に分析する。

In supervised machine learning, use of correct labels is extremely important to ensure high accuracy. Unfortunately, most datasets contain corrupted labels. Machine learning models trained on such datasets do not generalize well. Thus, detecting their label errors can significantly increase their efficacy. We propose a novel framework, called CTRL (Clustering TRaining Losses for label error detection), to detect label errors in multi-class datasets. It detects label errors in two steps based on the observation that models learn clean and noisy labels in different ways. First, we train a neural network using the noisy training dataset and obtain the loss curve for each sample. Then, we apply clustering algorithms to the training losses to group samples into two categories: cleanly-labeled and noisily-labeled. After label error detection, we remove samples with noisy labels and retrain the model. Our experimental results demonstrate state-of-the-art error detection accuracy on both image (CIFAR-10 and CIFAR-100) and tabular datasets under simulated noise. We also use a theoretical analysis to provide insights into why CTRL performs so well.
翻訳日:2022-08-19 13:52:05 公開日:2022-08-17
# NET-FLEET:不均一データによる完全分散フェデレーション学習のための線形収束高速化を実現する

NET-FLEET: Achieving Linear Convergence Speedup for Fully Decentralized Federated Learning with Heterogeneous Data ( http://arxiv.org/abs/2208.08490v1 )

ライセンス: Link先を確認
Xin Zhang, Minghong Fang, Zhuqing Liu, Haibo Yang, Jia Liu, Zhengyuan Zhu(参考訳) フェデレーション学習(fl)は、データプライバシ保護、効率的な通信、並列データ処理のメリットにより、近年で注目を集めている。 また,適切なアルゴリズム設計を行うことで,flにおける収束効果の線形高速化が期待できる。 しかし、FLに関する既存の研究のほとんどは、データと集中型パラメータサーバを持つシステムに限られており、不均一なデータセットを持つ分散FLの結果は依然として限られている。 さらに、データ不均一性を持つ完全分散化FLの下で収束の線形スピードアップが達成可能であるか否かは、未解決の問題である。 本稿では,データ不均一性を持つ完全分散FLシステムのための新しいアルゴリズムであるNET-FLEETを提案する。 本アルゴリズムの重要な考え方は,不均一なデータセットを扱うために再帰的勾配補正手法を組み込むことにより,fl(通信効率を意図した)の局所更新スキームを強化することである。 適切なパラメータ設定下では,提案手法が収束の線形高速化を実現することを示す。 さらに,提案したNET-FLEETアルゴリズムの性能評価や理論的結果の検証のために,広範な数値実験を行った。

Federated learning (FL) has received a surge of interest in recent years thanks to its benefits in data privacy protection, efficient communication, and parallel data processing. Also, with appropriate algorithmic designs, one could achieve the desirable linear speedup for convergence effect in FL. However, most existing works on FL are limited to systems with i.i.d. data and centralized parameter servers and results on decentralized FL with heterogeneous datasets remains limited. Moreover, whether or not the linear speedup for convergence is achievable under fully decentralized FL with data heterogeneity remains an open question. In this paper, we address these challenges by proposing a new algorithm, called NET-FLEET, for fully decentralized FL systems with data heterogeneity. The key idea of our algorithm is to enhance the local update scheme in FL (originally intended for communication efficiency) by incorporating a recursive gradient correction technique to handle heterogeneous datasets. We show that, under appropriate parameter settings, the proposed NET-FLEET algorithm achieves a linear speedup for convergence. We further conduct extensive numerical experiments to evaluate the performance of the proposed NET-FLEET algorithm and verify our theoretical findings.
翻訳日:2022-08-19 13:51:48 公開日:2022-08-17
# 視覚障害者のための近距離ナビゲーション支援 : 検出とアプローチ

Detect and Approach: Close-Range Navigation Support for People with Blindness and Low Vision ( http://arxiv.org/abs/2208.08477v1 )

ライセンス: Link先を確認
Yu Hao, Junchi Feng, John-Ross Rizzo, Yao Wang, Yi Fang(参考訳) 視力と視力の低い人(pBLV)は、最終目的地の特定や、不慣れな環境で特定の対象を狙う際に重大な課題を経験する。 さらに、まず目標物への位置決めや向き付けに加えて、現在の位置から最終目標に近づくことは、特に障害物を避けるために当初の計画された経路から離れるときに、しばしばイライラし、挑戦する。 本稿では,ユーザの興味の対象物へのアプローチを,不慣れな環境下で効率的に効果的に行うためのリアルタイムガイダンスを提供する,新しいウェアラブルナビゲーションソリューションを開発する。 本システムには,3次元の目標物体位置定位とユーザの軌道の連続推定という2つの重要な視覚的コンピューティング機能が含まれており,どちらも,ユーザの胸部に装着した低コストのモノクロカメラによって撮影された2Dビデオに基づいている。 これらの機能により、システムは初期ナビゲーションパスを提案でき、ユーザが移動すると経路を継続的に更新し、ユーザの経路の修正についてタイムリーに推奨することができる。 実験により,本システムは屋外と屋内の両方で0.5メートル未満の誤差で動作できることを実証した。 システムは完全に視覚ベースであり、ナビゲーションのための他のセンサーは必要とせず、計算はウェアラブルシステム内のJetsonプロセッサで実行し、リアルタイムナビゲーション支援を容易にする。

People with blindness and low vision (pBLV) experience significant challenges when locating final destinations or targeting specific objects in unfamiliar environments. Furthermore, besides initially locating and orienting oneself to a target object, approaching the final target from one's present position is often frustrating and challenging, especially when one drifts away from the initial planned path to avoid obstacles. In this paper, we develop a novel wearable navigation solution to provide real-time guidance for a user to approach a target object of interest efficiently and effectively in unfamiliar environments. Our system contains two key visual computing functions: initial target object localization in 3D and continuous estimation of the user's trajectory, both based on the 2D video captured by a low-cost monocular camera mounted on in front of the chest of the user. These functions enable the system to suggest an initial navigation path, continuously update the path as the user moves, and offer timely recommendation about the correction of the user's path. Our experiments demonstrate that our system is able to operate with an error of less than 0.5 meter both outdoor and indoor. The system is entirely vision-based and does not need other sensors for navigation, and the computation can be run with the Jetson processor in the wearable system to facilitate real-time navigation assistance.
翻訳日:2022-08-19 13:34:33 公開日:2022-08-17
# 視覚誘導とハイパーネットワークによるテキスト・ツー・イメージ生成

Text-to-Image Generation via Implicit Visual Guidance and Hypernetwork ( http://arxiv.org/abs/2208.08493v1 )

ライセンス: Link先を確認
Xin Yuan, Zhe Lin, Jason Kuen, Jianming Zhang, John Collomosse(参考訳) 我々は,暗黙的な視覚誘導損失と生成目的の組み合わせにより,追加の検索画像を取り入れたテキスト対画像生成手法を開発した。 既存のテキスト対画像生成手法と異なり,提案手法は相互モーダル検索結果を統一学習段階に動的に送り込むため,生成結果の品質,制御性,多様性を向上させる。 本稿では,画像情報(レイアウト,コンテンツなど)から対応する潜在ドメインへの効果的な転送を実現するために,符号化層の重み付け更新を予測する新しいハイパーネットワーク変調ビジュアルテキスト符号化方式を提案する。 実験の結果,既存のGANモデルよりも優れた検索ビジュアルデータを付加したモデルが導出された。 COCOデータセットでは、最先端の手法と比較して、最大3.5 \times$より少ないジェネレータパラメータで9.13ドルのFIDを達成しています。

We develop an approach for text-to-image generation that embraces additional retrieval images, driven by a combination of implicit visual guidance loss and generative objectives. Unlike most existing text-to-image generation methods which merely take the text as input, our method dynamically feeds cross-modal search results into a unified training stage, hence improving the quality, controllability and diversity of generation results. We propose a novel hypernetwork modulated visual-text encoding scheme to predict the weight update of the encoding layer, enabling effective transfer from visual information (e.g. layout, content) into the corresponding latent domain. Experimental results show that our model guided with additional retrieval visual data outperforms existing GAN-based models. On COCO dataset, we achieve better FID of $9.13$ with up to $3.5 \times$ fewer generator parameters, compared with the state-of-the-art method.
翻訳日:2022-08-19 13:34:11 公開日:2022-08-17
# ディエンス不確かさ推定を用いた視覚的クロスビュー距離定位

Visual Cross-View Metric Localization with Dense Uncertainty Estimates ( http://arxiv.org/abs/2208.08519v1 )

ライセンス: Link先を確認
Zimin Xia, Olaf Booij, Marco Manfredi, Julian F. P. Kooij(参考訳) 本研究は,屋外ロボットの視覚クロスビューメトリックローカライズについて述べる。 地上レベルのカラー画像と局所環境を含む衛星パッチが与えられた場合、そのタスクは衛星パッチ内の地上カメラの位置を特定することである。 関連した研究は、レンジセンサー(LiDAR、Radar)に対して、最初のクロスビュー画像検索ステップの後、二次回帰ステップとしてのみ、このタスクに対処した。 ローカル・サテライトパッチは、前もって粗いローカライゼーション(GPS/GNSS、時間フィルタリングなど)を通しても検索できるので、画像検索の目的を落とし、メートル法のみに集中する。 我々は,より高密度な衛星記述子を用いた新しいネットワークアーキテクチャを考案し,その類似性は(画像検索のように出力ではなく)ボトルネックに一致し,高密度な空間分布を出力として,マルチモーダルなローカライゼーションの曖昧さを捉える。 我々は,グローバル画像記述子を用いた最先端回帰ベースラインと比較する。 最近提案された vigor と oxford robotcar データセットの定量的・定性的な実験結果が我々の設計を検証した。 生成した確率は測位精度と相関し、方位が不明な場合の地中カメラの方向を大まかに推定することも可能である。 本手法は,各領域,地域,時間にまたがる各領域の一般化において,最先端技術と比較して,中央値の局所化誤差を51%,37%,28%削減する。

This work addresses visual cross-view metric localization for outdoor robotics. Given a ground-level color image and a satellite patch that contains the local surroundings, the task is to identify the location of the ground camera within the satellite patch. Related work addressed this task for range-sensors (LiDAR, Radar), but for vision, only as a secondary regression step after an initial cross-view image retrieval step. Since the local satellite patch could also be retrieved through any rough localization prior (e.g. from GPS/GNSS, temporal filtering), we drop the image retrieval objective and focus on the metric localization only. We devise a novel network architecture with denser satellite descriptors, similarity matching at the bottleneck (rather than at the output as in image retrieval), and a dense spatial distribution as output to capture multi-modal localization ambiguities. We compare against a state-of-the-art regression baseline that uses global image descriptors. Quantitative and qualitative experimental results on the recently proposed VIGOR and the Oxford RobotCar datasets validate our design. The produced probabilities are correlated with localization accuracy, and can even be used to roughly estimate the ground camera's heading when its orientation is unknown. Overall, our method reduces the median metric localization error by 51%, 37%, and 28% compared to the state-of-the-art when generalizing respectively in the same area, across areas, and across time.
翻訳日:2022-08-19 13:33:54 公開日:2022-08-17
# 自律型ドーザーの物体検出

Object Detection for Autonomous Dozers ( http://arxiv.org/abs/2208.08570v1 )

ライセンス: Link先を確認
Chun-Hao Liu and Burhaneddin Yaman(参考訳) 我々は、建設現場のタスクを効率的で堅牢で安全な方法で完了させることを想定した、新しいタイプの自律走行車両を紹介している。 ドーザーの経路計画をよりうまく処理し、建設現場の安全性を確保するため、物体検出は知覚タスクの中で最も重要な要素の1つとなる。 そこで本研究では,ドザーを走行することで建設現場のデータを収集する。 そして、その分布を理解するためにデータを徹底的に分析する。 最後に、よく知られた2つのオブジェクト検出モデルをトレーニングし、そのパフォーマンスを幅広いトレーニング戦略とハイパーパラメータでベンチマークする。

We introduce a new type of autonomous vehicle - an autonomous dozer that is expected to complete construction site tasks in an efficient, robust, and safe manner. To better handle the path planning for the dozer and ensure construction site safety, object detection plays one of the most critical components among perception tasks. In this work, we first collect the construction site data by driving around our dozers. Then we analyze the data thoroughly to understand its distribution. Finally, two well-known object detection models are trained, and their performances are benchmarked with a wide range of training strategies and hyperparameters.
翻訳日:2022-08-19 13:33:27 公開日:2022-08-17
# エモメント:南アジアの2つの国からの感情的注釈付きメンタルヘルスコーパス

EmoMent: An Emotion Annotated Mental Health Corpus from two South Asian Countries ( http://arxiv.org/abs/2208.08486v1 )

ライセンス: Link先を確認
Thushari Atapattu, Mahen Herath, Charitha Elvitigala, Piyanjali de Zoysa, Kasun Gunawardana, Menasha Thilakaratne, Kasun de Zoysa and Katrina Falkner(参考訳) オンラインメディア(Facebook、Redditなど)を、心理的苦痛と支援を求めるためのプラットフォームとして利用することが多い。 最先端のNLP技術は、テキストからメンタルヘルス問題を自動的に検出する強力な可能性を示している。 研究は、メンタルヘルス問題は人の言語選択に示される感情(例えば悲しみ)に反映されていることを示唆している。 そこで我々は,インドとスリランカの2カ国から抽出された2802のFacebook投稿(14845文)からなる,感情調和型メンタルヘルスコーパス(EmoMent)を開発した。 3人の臨床心理学生は、これらのポストを「精神疾患」(例えばうつ病)や感情(例えば「悲しみ」や「アンガー」)の8つのカテゴリーに注釈するのに関与した。 EmoMent corpus は98.3%(つまり2つ以上の合意で %)、Fleiss' Kappa は 0.82 である。 我々のRoBERTaを用いたモデルでは、第1タスク(投稿からメンタルヘルス状態を予測する)と第2タスク(分類学で定義されたカテゴリと関連するポストの関連度)のF1スコアが0.76、マクロ平均F1スコアが0.77であった。

People often utilise online media (e.g., Facebook, Reddit) as a platform to express their psychological distress and seek support. State-of-the-art NLP techniques demonstrate strong potential to automatically detect mental health issues from text. Research suggests that mental health issues are reflected in emotions (e.g., sadness) indicated in a person's choice of language. Therefore, we developed a novel emotion-annotated mental health corpus (EmoMent), consisting of 2802 Facebook posts (14845 sentences) extracted from two South Asian countries - Sri Lanka and India. Three clinical psychology postgraduates were involved in annotating these posts into eight categories, including 'mental illness' (e.g., depression) and emotions (e.g., 'sadness', 'anger'). EmoMent corpus achieved 'very good' inter-annotator agreement of 98.3% (i.e. % with two or more agreement) and Fleiss' Kappa of 0.82. Our RoBERTa based models achieved an F1 score of 0.76 and a macro-averaged F1 score of 0.77 for the first task (i.e. predicting a mental health condition from a post) and the second task (i.e. extent of association of relevant posts with the categories defined in our taxonomy), respectively.
翻訳日:2022-08-19 13:28:51 公開日:2022-08-17
# ブロックMDPにおけるほぼ最適遅延状態復号法

Nearly Optimal Latent State Decoding in Block MDPs ( http://arxiv.org/abs/2208.08480v1 )

ライセンス: Link先を確認
Yassir Jedra, Junghyun Lee, Alexandre Prouti\`ere, Se-Young Yun(参考訳) エピソードブロックMDPにおけるモデル推定と報酬なし学習の問題について検討する。 これらのMDPでは、意思決定者は少数の潜在状態から生成される豊富な観測や文脈にアクセスすることができる。 まず, 一定の行動方針に基づいて生成されたデータに基づいて, 潜在状態復号関数(観測から潜在状態へのマッピング)を推定することに関心を寄せる。 我々は,この関数を推定するための誤り率に関する情報理論の下限を導出し,この基本極限に近づくアルゴリズムを提案する。 また,本アルゴリズムはmdpの全成分の推定値も提供する。 次に,報酬のない枠組みで最適に近い政策を学ぶ問題について検討する。 効率的なモデル推定アルゴリズムに基づき、最適なポリシーに最適なレートで(収集されたサンプルの数が大きくなるにつれて)ポリシーの収束を推測できることを示した。 興味深いことに,本解析は,ブロック構造の活用によってサンプルの複雑さが向上し,最適に近い方針を特定するために必要な条件を提供する。 これらの条件を満たすと、ミニマックスの報酬なし設定におけるサンプルの複雑さは乗算係数$n$によって改善され、$n$は可能なコンテキストの数である。

We investigate the problems of model estimation and reward-free learning in episodic Block MDPs. In these MDPs, the decision maker has access to rich observations or contexts generated from a small number of latent states. We are first interested in estimating the latent state decoding function (the mapping from the observations to latent states) based on data generated under a fixed behavior policy. We derive an information-theoretical lower bound on the error rate for estimating this function and present an algorithm approaching this fundamental limit. In turn, our algorithm also provides estimates of all the components of the MDP. We then study the problem of learning near-optimal policies in the reward-free framework. Based on our efficient model estimation algorithm, we show that we can infer a policy converging (as the number of collected samples grows large) to the optimal policy at the best possible rate. Interestingly, our analysis provides necessary and sufficient conditions under which exploiting the block structure yields improvements in the sample complexity for identifying near-optimal policies. When these conditions are met, the sample complexity in the minimax reward-free setting is improved by a multiplicative factor $n$, where $n$ is the number of possible contexts.
翻訳日:2022-08-19 13:23:50 公開日:2022-08-17
# 強化学習のためのコケ規則化

Choquet regularization for reinforcement learning ( http://arxiv.org/abs/2208.08497v1 )

ライセンス: Link先を確認
Xia Han, Ruodu Wang, Xun Yu Zhou(参考訳) 本稿では,強化学習(rl)の探索レベルを測定し管理し,wang et al. (2020, jmlr, 21(198)) の連続時間エントロピー正規化rl問題(英語版)を正則化に使用する微分エントロピーを正則化器で置き換える手法を提案する。 この問題のハミルトン-ヤコビ-ベルマン方程式を導出し、平均分散制約チョーケ正規化器を静的に最大化することにより、線形四分法(LQ)の場合を明示的に解いた。 lq の設定の下では、いくつかの特定のコケ正規化子に対する明示的な最適分布を導出し、逆に$\epsilon$-greedy, exponential, uniform, gaussian のような広く使われる探索的サンプルを生成するコケ正規化子を同定する。

We propose \emph{Choquet regularizers} to measure and manage the level of exploration for reinforcement learning (RL), and reformulate the continuous-time entropy-regularized RL problem of Wang et al. (2020, JMLR, 21(198)) in which we replace the differential entropy used for regularization with a Choquet regularizer. We derive the Hamilton--Jacobi--Bellman equation of the problem, and solve it explicitly in the linear--quadratic (LQ) case via maximizing statically a mean--variance constrained Choquet regularizer. Under the LQ setting, we derive explicit optimal distributions for several specific Choquet regularizers, and conversely identify the Choquet regularizers that generate a number of broadly used exploratory samplers such as $\epsilon$-greedy, exponential, uniform and Gaussian.
翻訳日:2022-08-19 13:23:34 公開日:2022-08-17
# 二元計器を用いた観測観測による個別処理効果の推定

Estimating individual treatment effects under unobserved confounding using binary instruments ( http://arxiv.org/abs/2208.08544v1 )

ライセンス: Link先を確認
Dennis Frauen, Stefan Feuerriegel(参考訳) 観察データから個々の治療効果(ites)を推定することは、パーソナライズされた医療など多くの分野に関係している。 しかし、実際には、治療の割り当ては通常、観察されていない変数によって決定され、バイアスが引き起こされる。 バイアスを取り除くための治療法は、インストゥルメンタル変数(IV)の使用である。 このような設定は医学(例えば、コンプライアンスをバイナリIVとして使用する試験)で広く使われている。 本稿では,2進 IV を用いた ITE を推定し,非バイアスな ITE 推定を行うための,MRIV と呼ばれる新しい頑健な機械学習フレームワークを提案する。 従来のバイナリIVと異なり、我々のフレームワークは擬似結果回帰によって直接ITTを推定する。 1) 提案手法は, 数個の固有値推定器が緩やかに収束した場合でも, ite推定器が高速収束を実現するという, 多重ロバストな収束率をもたらすことを示す理論的解析を提供する。 2) ite推定のための最先端プラグインiv法を漸近的に上回っていることを示す。 (3) 理論的結果に基づいて, バイナリIVを用いたITE推定のためのMRIV-Netと呼ばれるニューラルネットワークアーキテクチャを提案する。 様々な計算実験において,我々はMRIV-Netが最先端の性能を達成することを実証的に実証した。 私たちの知る限りでは、MRIVはバイナリIV設定でITTを推定する最初の機械学習フレームワークです。

Estimating individual treatment effects (ITEs) from observational data is relevant in many fields such as personalized medicine. However, in practice, the treatment assignment is usually confounded by unobserved variables and thus introduces bias. A remedy to remove the bias is the use of instrumental variables (IVs). Such settings are widespread in medicine (e.g., trials where compliance is used as binary IV). In this paper, we propose a novel, multiply robust machine learning framework, called MRIV, for estimating ITEs using binary IVs and thus yield an unbiased ITE estimator. Different from previous work for binary IVs, our framework estimates the ITE directly via a pseudo outcome regression. (1) We provide a theoretical analysis where we show that our framework yields multiply robust convergence rates: our ITE estimator achieves fast convergence even if several nuisance estimators converge slowly. (2) We further show that our framework asymptotically outperforms state-of-the-art plug-in IV methods for ITE estimation. (3) We build upon our theoretical results and propose a tailored deep neural network architecture called MRIV-Net for ITE estimation using binary IVs. Across various computational experiments, we demonstrate empirically that our MRIV-Net achieves state-of-the-art performance. To the best of our knowledge, our MRIV is the first machine learning framework for estimating ITEs in the binary IV setting shown to be multiply robust.
翻訳日:2022-08-19 13:23:14 公開日:2022-08-17
# 空間計測における幾何散乱

Geometric Scattering on Measure Spaces ( http://arxiv.org/abs/2208.08561v1 )

ライセンス: Link先を確認
Joyce Chew and Matthew Hirn and Smita Krishnaswamy and Deanna Needell and Michael Perlmutter and Holly Steach and Siddharth Viswanath and Hau-Tieng Wu(参考訳) 散乱変換は、当初畳み込みニューラルネットワーク(cnns)のモデルとして導入された多層ウェーブレットに基づく変換であり、これらのネットワークの安定性と不変性を理解する上で基礎的な役割を果たす。 その後、グラフや多様体のような非ユークリッド構造を持つデータセットへのcnnの成功に広く関心が寄せられ、幾何学的深層学習の新たな分野が誕生した。 この新分野におけるアーキテクチャの理解を深めるために、無向グラフや境界のないコンパクトリーマン多様体のような非ユークリッドデータ構造に対する散乱変換の一般化を提案している。 本稿では,測度空間上の幾何学的散乱に対する一般的な統一モデルを提案する。 提案フレームワークは, 特別の場合として幾何散乱に関する以前の研究を含むが, 有向グラフ, 符号グラフ, 境界を持つ多様体など, より一般的な設定にも適用できる。 有用な表現が不変であるべき群を特定する新しい基準を提案し、この基準が散乱変換が望ましい安定性と不変性を持つことを保証するのに十分であることを示す。 さらに、未知多様体をランダムにサンプリングして得られる有限測度空間を考える。 本稿では,グラフ散乱変換が基礎多様体上の散乱変換に近似するデータ駆動グラフを構築するための2つの方法を提案する。 さらに, 拡散マップに基づく手法を用いて, これらの近似値の収束率を, サンプル点の数が無限大になるにつれて定量的に推定する。 最後に,球面画像,有向グラフ,高次元単一セルデータに対する本手法の有用性について述べる。

The scattering transform is a multilayered, wavelet-based transform initially introduced as a model of convolutional neural networks (CNNs) that has played a foundational role in our understanding of these networks' stability and invariance properties. Subsequently, there has been widespread interest in extending the success of CNNs to data sets with non-Euclidean structure, such as graphs and manifolds, leading to the emerging field of geometric deep learning. In order to improve our understanding of the architectures used in this new field, several papers have proposed generalizations of the scattering transform for non-Euclidean data structures such as undirected graphs and compact Riemannian manifolds without boundary. In this paper, we introduce a general, unified model for geometric scattering on measure spaces. Our proposed framework includes previous work on geometric scattering as special cases but also applies to more general settings such as directed graphs, signed graphs, and manifolds with boundary. We propose a new criterion that identifies to which groups a useful representation should be invariant and show that this criterion is sufficient to guarantee that the scattering transform has desirable stability and invariance properties. Additionally, we consider finite measure spaces that are obtained from randomly sampling an unknown manifold. We propose two methods for constructing a data-driven graph on which the associated graph scattering transform approximates the scattering transform on the underlying manifold. Moreover, we use a diffusion-maps based approach to prove quantitative estimates on the rate of convergence of one of these approximations as the number of sample points tends to infinity. Lastly, we showcase the utility of our method on spherical images, directed graphs, and on high-dimensional single-cell data.
翻訳日:2022-08-19 13:22:51 公開日:2022-08-17
# df-captcha:偽の呼び出しを防ぐディープフェイクcaptcha

DF-Captcha: A Deepfake Captcha for Preventing Fake Calls ( http://arxiv.org/abs/2208.08524v1 )

ライセンス: Link先を確認
Yisroel Mirsky(参考訳) ソーシャルエンジニアリング(se、social engineering)は、データ、情報、ネットワーク、さらにはお金へのアクセスを人々を騙すことを目的としている。 何十年もの間、SEは攻撃者が組織にアクセスするための重要な方法であり、事実上すべての防衛線をスキップしてきた。 攻撃者はSEを使って、当局を偽装する脅迫電話や、愛する人から送られてきたような感染したメールを送ることで、罪のない人々を攻撃している。 SE攻撃は、サイバーセキュリティにおける最も弱いリンクであるため、犯罪者にとってトップアタックベクターであり続けるだろう。 残念なことに、deepfakesと呼ばれる新しいテクノロジーが登場すれば、脅威はますます悪化するだろう。 ディープフェイク(英: Deepfake)とは、AIが生成したメディア(例えばビデオ)である。 この技術は主に有名人の顔の入れ替えに使われているが、異なるペルソナの「パペット」にも使える。 最近、研究者は、この技術をリアルタイムで展開して、電話で誰かの声をクローンしたり、ビデオ通話で顔を再現したりできることを示した。 初心者のユーザーがこの技術をダウンロードして利用できることを考えると、犯罪者が既にSE攻撃を加害するために収益化を始めていることは驚くにあたらない。 本稿では,組織や個人をディープフェイクse攻撃から守るための軽量アプリケーションを提案する。 チャレンジとレスポンスのアプローチを通じて、ディープフェイク技術の技術的および理論的制限を活用して攻撃者を暴露する。 既存の防御ソリューションはエンドポイントソリューションとしては重すぎて、動的攻撃者によって回避できる。 対照的に、我々のアプローチは軽量であり、リアクティブアームレースを破り、攻撃者を不利にする。

Social engineering (SE) is a form of deception that aims to trick people into giving access to data, information, networks and even money. For decades SE has been a key method for attackers to gain access to an organization, virtually skipping all lines of defense. Attackers also regularly use SE to scam innocent people by making threatening phone calls which impersonate an authority or by sending infected emails which look like they have been sent from a loved one. SE attacks will likely remain a top attack vector for criminals because humans are the weakest link in cyber security. Unfortunately, the threat will only get worse now that a new technology called deepfakes as arrived. A deepfake is believable media (e.g., videos) created by an AI. Although the technology has mostly been used to swap the faces of celebrities, it can also be used to `puppet' different personas. Recently, researchers have shown how this technology can be deployed in real-time to clone someone's voice in a phone call or reenact a face in a video call. Given that any novice user can download this technology to use it, it is no surprise that criminals have already begun to monetize it to perpetrate their SE attacks. In this paper, we propose a lightweight application which can protect organizations and individuals from deepfake SE attacks. Through a challenge and response approach, we leverage the technical and theoretical limitations of deepfake technologies to expose the attacker. Existing defence solutions are too heavy as an end-point solution and can be evaded by a dynamic attacker. In contrast, our approach is lightweight and breaks the reactive arms race, putting the attacker at a disadvantage.
翻訳日:2022-08-19 13:17:53 公開日:2022-08-17
# 音声認識のためのエンドツーエンドニューラルモデルのロバスト性解析

Analyzing Robustness of End-to-End Neural Models for Automatic Speech Recognition ( http://arxiv.org/abs/2208.08509v1 )

ライセンス: Link先を確認
Goutham Rajendran, Wei Zou(参考訳) 自動音声認識のための事前学習ニューラルモデルのロバスト性について検討した。 機械学習の実際のデータは、通常非常にノイズが多く、ほとんどクリーンではないため、ドメインによって異なる要因(例えば、異常値、ランダムノイズ、逆雑音)によって引き起こされる可能性がある。 したがって、我々が様々なタスクのために開発したモデルは、このような騒がしいデータに対して堅牢でなければならないため、堅牢な機械学習の分野が栄えている。 自動音声認識の設定において、この重要な問題を考える。 事前訓練されたモデルの人気が高まっているため、そのようなモデルのノイズに対する堅牢性を分析し、理解することが重要である。 本研究では,LibriSpeechおよびTIMITデータセット上で,事前学習したニューラルネットワークwav2vec2, HuBERT, DistilHuBERTの堅牢性解析を行う。 予測時間と標準単語誤り率測定値で定量化されるモデル性能を,異なる種類のノイズ発生機構を用いて測定する。 また、層間にノイズを注入する際のwav2vec2モデルの詳細層解析を行い、各層が何を学習するかを高いレベルで予測する。 最後に,レイヤ間におけるエラーの伝搬を可視化し,クリーンデータとノイズデータでエラーがどう振る舞うかを比較する。 我々の実験はPasadらの予測に合致する。 2021年は]また 今後の仕事にも 興味深い方向性を示します。

We investigate robustness properties of pre-trained neural models for automatic speech recognition. Real life data in machine learning is usually very noisy and almost never clean, which can be attributed to various factors depending on the domain, e.g. outliers, random noise and adversarial noise. Therefore, the models we develop for various tasks should be robust to such kinds of noisy data, which led to the thriving field of robust machine learning. We consider this important issue in the setting of automatic speech recognition. With the increasing popularity of pre-trained models, it's an important question to analyze and understand the robustness of such models to noise. In this work, we perform a robustness analysis of the pre-trained neural models wav2vec2, HuBERT and DistilHuBERT on the LibriSpeech and TIMIT datasets. We use different kinds of noising mechanisms and measure the model performances as quantified by the inference time and the standard Word Error Rate metric. We also do an in-depth layer-wise analysis of the wav2vec2 model when injecting noise in between layers, enabling us to predict at a high level what each layer learns. Finally for this model, we visualize the propagation of errors across the layers and compare how it behaves on clean versus noisy data. Our experiments conform the predictions of Pasad et al. [2021] and also raise interesting directions for future work.
翻訳日:2022-08-19 13:16:23 公開日:2022-08-17
# 異なる畳み込みニューラルネットワークを用いた選択的固定フィルタアクティブノイズ制御の性能評価

Performance Evaluation of Selective Fixed-filter Active Noise Control based on Different Convolutional Neural Networks ( http://arxiv.org/abs/2208.08440v1 )

ライセンス: Link先を確認
Zhengding Luo, Dongyuan Shi, Woon-Seng Gan(参考訳) 高速応答時間と高いロバスト性のため、選択的固定フィルタアクティブノイズコントロール (SFANC) 法は、様々な実用的なアクティブノイズコントロール (ANC) システムで広く使用される候補となる。 従来の固定フィルタANC法と比較して、SFANCは様々な種類のノイズに対して事前訓練された制御フィルタを選択することができる。 したがって、深層学習技術はSFANC法で使用することができ、様々なノイズを減衰させるために最適な制御フィルタをより柔軟に選択することができる。 さらに、ディープニューラルネットワークの支援により、試行錯誤ではなくノイズデータから選択戦略を自動的に学習することができ、anc設計の実用性を大幅に単純化し改善することができる。 そこで本研究では,SFANCの性能を1次元および2次元の畳み込みニューラルネットワークを用いて検討する。 さらに,複数のネットワークトレーニング戦略の比較分析を行い,選抜性能を向上させることができることを発見した。

Due to its rapid response time and a high degree of robustness, the selective fixed-filter active noise control (SFANC) method appears to be a viable candidate for widespread use in a variety of practical active noise control (ANC) systems. In comparison to conventional fixed-filter ANC methods, SFANC can select the pre-trained control filters for different types of noise. Deep learning technologies, thus, can be used in SFANC methods to enable a more flexible selection of the most appropriate control filters for attenuating various noises. Furthermore, with the assistance of a deep neural network, the selecting strategy can be learned automatically from noise data rather than through trial and error, which significantly simplifies and improves the practicability of ANC design. Therefore, this paper investigates the performance of SFANC based on different one-dimensional and two-dimensional convolutional neural networks. Additionally, we conducted comparative analyses of several network training strategies and discovered that fine-tuning could improve selection performance.
翻訳日:2022-08-19 13:16:03 公開日:2022-08-17
# rlエージェントの戦略理解と可視化のためのフレームワーク

A Framework for Understanding and Visualizing Strategies of RL Agents ( http://arxiv.org/abs/2208.08552v1 )

ライセンス: Link先を確認
Pedro Sequeira, Daniel Elenius, Jesse Hostetler, Melinda Gervasio(参考訳) 近年、ディープラーニングモデルを理解する必要性が増し、AIにおける信頼と倫理が強調され、説明可能なAIが大幅に進歩している。 逐次決定タスクの理解可能なモデルは、個々の予測だけでなく、環境力学と相互作用する一連の予測を理解する必要があるため、特別な課題である。 本稿では,時間論理式を用いてエージェント戦略を特徴付ける逐次決定タスクの理解可能なモデル学習フレームワークを提案する。 エージェントトレースのセットが与えられた場合、我々はまず、頻繁なアクションパターンをキャプチャする新しい埋め込み手法を用いてトレースをクラスタ化する。 次に、異なるクラスタ内のエージェント戦略を説明する論理式を探索する。 我々は,手工芸の専門家政策と訓練された強化学習エージェントの痕跡を用いて,StarCraft II(SC2)の戦闘シナリオに関する枠組みを評価する。 エージェントリプレイから,環境の状態とエージェントのローカル動作を記述した高レベル機能のシーケンスとしてトレースを抽出するsc2環境の機能抽出器を実装した。 さらに,異なるタスク条件が各トレースクラスタ内の異なるエージェント動作パターンにどのように影響するかを理解するための,環境中のユニットの動きを視覚化するツールを設計した。 実験の結果, 提案手法は, エージェントトレースを, 戦略推論へのアプローチが一貫した, 意味的, 理解しやすい戦略記述を生成する, 異なる行動群に分離できることがわかった。

Recent years have seen significant advances in explainable AI as the need to understand deep learning models has gained importance with the increased emphasis on trust and ethics in AI. Comprehensible models for sequential decision tasks are a particular challenge as they require understanding not only individual predictions but a series of predictions that interact with environmental dynamics. We present a framework for learning comprehensible models of sequential decision tasks in which agent strategies are characterized using temporal logic formulas. Given a set of agent traces, we first cluster the traces using a novel embedding method that captures frequent action patterns. We then search for logical formulas that explain the agent strategies in the different clusters. We evaluate our framework on combat scenarios in StarCraft II (SC2), using traces from a handcrafted expert policy and a trained reinforcement learning agent. We implemented a feature extractor for SC2 environments that extracts traces as sequences of high-level features describing both the state of the environment and the agent's local behavior from agent replays. We further designed a visualization tool depicting the movement of units in the environment that helps understand how different task conditions lead to distinct agent behavior patterns in each trace cluster. Experimental results show that our framework is capable of separating agent traces into distinct groups of behaviors for which our approach to strategy inference produces consistent, meaningful, and easily understood strategy descriptions.
翻訳日:2022-08-19 13:15:45 公開日:2022-08-17
# 灰色時空間系の学習に向けて:非連続時空間ダイナミクスの予言

Towards Learning in Grey Spatiotemporal Systems: A Prophet to Non-consecutive Spatiotemporal Dynamics ( http://arxiv.org/abs/2208.08878v1 )

ライセンス: Link先を確認
Zhengyang Zhou, Yang Kuo, Wei Sun, Binwu Wang, Min Zhou, Yunan Zong, Yang Wang(参考訳) 時空間予測は、スマートシティにおける多様かつ重要な応用のために、データサイエンスにおいて必須のトピックである。 既存の研究は主に、観察を完全かつ連続的に得た次のステップの連続的な予測を行い、最寄りの観測を瞬時状態推定の鍵となる知識として利用することができる。 しかし、早期活動計画とセンサ障害の実践的な問題は、新しいタスク、すなわち非連続的な予測を引き起こす。 本稿では,Grey Spatiotemporal Systems (G2S) を欠いた時空間学習システムを定義し,多段階要因を階層的に分離し,フレキシブルアグリゲーションと不整合性推定の両方を可能にする,G2S(FDG2S)のための因子分離学習フレームワークを提案する。 まず、欠落する観測を補償するために、周期的規則性と瞬時変動の両方を捉える代表配列を選択する汎用的な意味疎結合シーケンスサンプリングを考案する。 第2に,非包括的状態の予測を,予測された複合的外因的要因の下で推測する状態に変換する。 特に、条件付きランダム場の2つのエネルギー関数による因子誘起予測強度と領域ワイド近接を分離するために、因子分離凝集法を提案する。 フレキシブルな因子的結合下での領域的近接を推定し、動的近傍集約を可能にするため、さらに、領域的近接に対する外因的要因の影響を複雑化させ、それらを集約することを学ぶ。 G2Sの本質的な不完全性と重要な応用を考慮し、信頼性保証のための2種類の不確実性とモデル解釈を特定するために、DisEntangled Uncertainty Quantificationが提案される。

Spatiotemporal forecasting is an imperative topic in data science due to its diverse and critical applications in smart cities. Existing works mostly perform consecutive predictions of following steps with observations completely and continuously obtained, where nearest observations can be exploited as key knowledge for instantaneous status estimation. However, the practical issues of early activity planning and sensor failures elicit a brand-new task, i.e., non-consecutive forecasting. In this paper, we define spatiotemporal learning systems with missing observation as Grey Spatiotemporal Systems (G2S) and propose a Factor-Decoupled learning framework for G2S (FDG2S), where the core idea is to hierarchically decouple multi-level factors and enable both flexible aggregations and disentangled uncertainty estimations. Firstly, to compensate for missing observations, a generic semantic-neighboring sequence sampling is devised, which selects representative sequences to capture both periodical regularity and instantaneous variations. Secondly, we turn the predictions of non-consecutive statuses into inferring statuses under expected combined exogenous factors. In particular, a factor-decoupled aggregation scheme is proposed to decouple factor-induced predictive intensity and region-wise proximity by two energy functions of conditional random field. To infer region-wise proximity under flexible factor-wise combinations and enable dynamic neighborhood aggregations, we further disentangle compounded influences of exogenous factors on region-wise proximity and learn to aggregate them. Given the inherent incompleteness and critical applications of G2S, a DisEntangled Uncertainty Quantification is put forward, to identify two types of uncertainty for reliability guarantees and model interpretations.
翻訳日:2022-08-19 13:11:54 公開日:2022-08-17
# SensorSCAN: 化学プロセスにおける異常診断のための自己監視学習と深部クラスタリング

SensorSCAN: Self-Supervised Learning and Deep Clustering for Fault Diagnosis in Chemical Processes ( http://arxiv.org/abs/2208.08879v1 )

ライセンス: Link先を確認
Maksim Golyadkin, Vitaliy Pozdnyakov, Leonid Zhukov, Ilya Makarov(参考訳) 近代工業施設は生産過程で大量の生センサデータを生成する。 このデータはプロセスの監視と制御に使用され、プロセス異常の検出と予測に分析することができる。 通常、データは専門家によって注釈付けされ、予測モデリングにさらに使われる必要がある。 今日の研究の大部分は、手動でアノテートされたデータを必要とする、教師なしの異常検出アルゴリズムまたは教師付き方法に焦点を当てている。 これらの研究は、プロセスシミュレータ生成データを用いて、限られた種類のイベントに対して行われることが多く、提案されたアルゴリズムは、公開データセット上ではほとんど検証されない。 本稿では,産業化学センサデータを対象とした非教師なし故障検出・診断のためのSensorSCANを提案する。 我々は,テネシー・イーストマンプロセスに基づく2つの公開データセット上でのモデル性能の検証を行った。 その結果,本手法は既存のアプローチ(固定FPRでは+0.2-0.3 TPR)を著しく上回り,専門家のアノテーションを使わずにほとんどのプロセス欠陥を検出することがわかった。 さらに,本手法は,事前に故障の種類が不明な実世界のアプリケーションに適していることを示す実験を行った。

Modern industrial facilities generate large volumes of raw sensor data during production process. This data is used to monitor and control the processes and can be analyzed to detect and predict process abnormalities. Typically, the data has to be annotated by experts to be further used in predictive modeling. Most of today's research is focusing on either unsupervised anomaly detection algorithms or supervised methods, that require manually annotated data. The studies are often done using process simulator generated data for a narrow class of events and proposed algorithms are rarely verified on publicly available datasets. In this paper, we propose a novel method SensorSCAN for unsupervised fault detection and diagnosis designed for industrial chemical sensor data. We demonstrate our model performance on two publicly available datasets based on the Tennessee Eastman Process with various fault types. Results show that our method significantly outperforms existing approaches (+0.2-0.3 TPR for a fixed FPR) and detects most of the process faults without the use of expert annotation. In addition, we performed experiments to show that our method is suitable for real-world applications where the number of fault types is not known in advance.
翻訳日:2022-08-19 13:11:23 公開日:2022-08-17
# エッジでの局所勾配による学習

Learning with Local Gradients at the Edge ( http://arxiv.org/abs/2208.08503v1 )

ライセンス: Link先を確認
Michael Lomnitz, Zachary Daniels, David Zhang, Michael Piacentino(参考訳) 高速収束と低メモリでエッジデバイス上での学習を可能にするため,Target Projection Stochastic Gradient Descent (tpSGD)と呼ばれる,バックプロパゲーションフリー最適化アルゴリズムを提案する。 tpSGDは、任意の損失関数を扱うために直接ランダムなターゲットプロジェクションを一般化し、フィードフォワードネットワークに加えて、リカレントニューラルネットワーク(RNN)をトレーニングするためのターゲットプロジェクションを拡張する。 tpSGDは、層幅確率勾配勾配(SGD)とラベルのランダムなプロジェクションによって生成された局所目標を用いて、フォワードパスのみでネットワーク層をトレーニングする。 tpsgdは最適化中に勾配を保持する必要はなく、ニューラルネットワーク全体の重み、入出力、中間結果の複数のインスタンスを必要とするsgdバックプロパゲーション(bp)メソッドと比較して、メモリ割り当てを大幅に削減する。 提案手法は, 完全連結層, 畳み込み層, 再帰層からなる比較的浅いネットワーク上で, 5%の精度でBP勾配に適合する。 tpSGDは、多層パーセプトロン、畳み込みニューラルネットワーク(CNN)、RNNからなる浅層モデルにおいて、競合精度とメモリと時間の削減により、他の最先端の勾配のないアルゴリズムよりも優れている。 深層ニューラルネットワーク(例えばVGG)のトレーニングにおけるtpSGDの性能を評価し,そのアプローチを多層RNNに拡張する。 これらの実験は、エッジにおけるtpSGDを用いたドメインシフトのための最適化層ベースのアダプタトレーニングに関連する新しい研究方向を強調した。

To enable learning on edge devices with fast convergence and low memory, we present a novel backpropagation-free optimization algorithm dubbed Target Projection Stochastic Gradient Descent (tpSGD). tpSGD generalizes direct random target projection to work with arbitrary loss functions and extends target projection for training recurrent neural networks (RNNs) in addition to feedforward networks. tpSGD uses layer-wise stochastic gradient descent (SGD) and local targets generated via random projections of the labels to train the network layer-by-layer with only forward passes. tpSGD doesn't require retaining gradients during optimization, greatly reducing memory allocation compared to SGD backpropagation (BP) methods that require multiple instances of the entire neural network weights, input/output, and intermediate results. Our method performs comparably to BP gradient-descent within 5% accuracy on relatively shallow networks of fully connected layers, convolutional layers, and recurrent layers. tpSGD also outperforms other state-of-the-art gradient-free algorithms in shallow models consisting of multi-layer perceptrons, convolutional neural networks (CNNs), and RNNs with competitive accuracy and less memory and time. We evaluate the performance of tpSGD in training deep neural networks (e.g. VGG) and extend the approach to multi-layer RNNs. These experiments highlight new research directions related to optimized layer-based adaptor training for domain-shift using tpSGD at the edge.
翻訳日:2022-08-19 13:04:02 公開日:2022-08-17
# 再構成可能なアクティベーションネットワーク

Restructurable Activation Networks ( http://arxiv.org/abs/2208.08562v1 )

ライセンス: Link先を確認
Kartikeya Bhardwaj, James Ward, Caleb Tung, Dibakar Gope, Lingchuan Meng, Igor Fedorov, Alex Chalfin, Paul Whatmough, Danny Loh(参考訳) ディープネットワーク内の非線形活性化関数を再構成してハードウェア効率の良いモデルを作成することは可能か? この問題に対処するために、ハードウェアの認識と効率を改善するために、モデル内の非線形性の量を操作できるRestructurable Activation Networks (RAN) という新しいパラダイムを提案する。 まず、新しいハードウェア対応検索空間と半自動検索アルゴリズムであるRAN-explicit(RAN-e)を提案し、非効率なブロックをハードウェア対応ブロックに置き換える。 次に, RAN-implicit (RAN-i) と呼ばれるトレーニング不要なモデルスケーリング手法を提案し, ネットワークトポロジと表現率の関係を非線形単位数で理論的に証明する。 ネットワークがimagenetの最先端の成果を様々なスケールとハードウェアで達成できることを実証する。 例えば、hivenet-lite-b0と比較して、ran-eはarm micro-npusのフレーム毎秒(fps)を1.5倍改善しながら、同様の精度を実現している。 一方、RAN-iは、同じまたはより良い精度で、ConvNexts上の#MACの最大2倍の減少を示す。 また、RAN-iはArmベースのデータセンターCPU上で、ConvNextよりも40%高いFPSを実現していることを示す。 最後に、RAN-iベースのオブジェクト検出ネットワークは、ConvNextベースのモデルと比較して、同じまたは高いmAPと最大33%高いFPSを達成する。

Is it possible to restructure the non-linear activation functions in a deep network to create hardware-efficient models? To address this question, we propose a new paradigm called Restructurable Activation Networks (RANs) that manipulate the amount of non-linearity in models to improve their hardware-awareness and efficiency. First, we propose RAN-explicit (RAN-e) -- a new hardware-aware search space and a semi-automatic search algorithm -- to replace inefficient blocks with hardware-aware blocks. Next, we propose a training-free model scaling method called RAN-implicit (RAN-i) where we theoretically prove the link between network topology and its expressivity in terms of number of non-linear units. We demonstrate that our networks achieve state-of-the-art results on ImageNet at different scales and for several types of hardware. For example, compared to EfficientNet-Lite-B0, RAN-e achieves a similar accuracy while improving Frames-Per-Second (FPS) by 1.5x on Arm micro-NPUs. On the other hand, RAN-i demonstrates up to 2x reduction in #MACs over ConvNexts with a similar or better accuracy. We also show that RAN-i achieves nearly 40% higher FPS than ConvNext on Arm-based datacenter CPUs. Finally, RAN-i based object detection networks achieve a similar or higher mAP and up to 33% higher FPS on datacenter CPUs compared to ConvNext based models.
翻訳日:2022-08-19 13:00:12 公開日:2022-08-17
# コンヴィフォーマー:畳み込み誘導型視覚変換器

Conviformers: Convolutionally guided Vision Transformer ( http://arxiv.org/abs/2208.08900v1 )

ライセンス: Link先を確認
Mohit Vaishnav, Thomas Fel, Ivan Felipe Rodr{\i}guez and Thomas Serre(参考訳) 視覚トランスフォーマーは現在、画像分類タスクのデファクトの好みである。 分類タスクには、細粒度と粗粒度の2種類がある。 細粒度分類では,サブクラス間の類似度が高いため,微妙な違いを見出す必要がある。 このような区別は、視覚変換器(ViT)に関連するメモリと計算コストを節約するために、イメージをダウンスケールするときにしばしば失われる。 本研究では,草本シートから植物を細粒度に分類するシステムを開発するための重要な要素について,詳細な分析と解説を行う。 広範な実験分析により,高次元画像を扱うために,より優れた拡張技術と現代のニューラルネットワークの必要性が示された。 また、Conviformerと呼ばれる畳み込みトランスアーキテクチャを導入し、一般的なVision Transformer(ConViT)とは異なり、メモリを爆発させることなく高解像度画像を処理できる。 また,植物を分類する上で欠かせないアスペクト比を保ちながら,画像のサイズを改良するPreSizerという新しい前処理手法も導入した。 単純かつ効果的なアプローチで、herbarium 202xとinaturalist 2019データセットでsataを達成しました。

Vision transformers are nowadays the de-facto preference for image classification tasks. There are two broad categories of classification tasks, fine-grained and coarse-grained. In fine-grained classification, the necessity is to discover subtle differences due to the high level of similarity between sub-classes. Such distinctions are often lost as we downscale the image to save the memory and computational cost associated with vision transformers (ViT). In this work, we present an in-depth analysis and describe the critical components for developing a system for the fine-grained categorization of plants from herbarium sheets. Our extensive experimental analysis indicated the need for a better augmentation technique and the ability of modern-day neural networks to handle higher dimensional images. We also introduce a convolutional transformer architecture called Conviformer which, unlike the popular Vision Transformer (ConViT), can handle higher resolution images without exploding memory and computational cost. We also introduce a novel, improved pre-processing technique called PreSizer to resize images better while preserving their original aspect ratios, which proved essential for classifying natural plants. With our simple yet effective approach, we achieved SoTA on Herbarium 202x and iNaturalist 2019 dataset.
翻訳日:2022-08-19 12:58:41 公開日:2022-08-17
# 離散時間アナログ伝送を用いた意味コミュニケーション:PAPRの視点から

Semantic Communications with Discrete-time Analog Transmission: A PAPR Perspective ( http://arxiv.org/abs/2208.08342v1 )

ライセンス: Link先を確認
Yulin Shao and Deniz Gunduz(参考訳) 近年,深層学習(DL)をベースとしたジョイントソースチャネル符号化(DeepJSCC)の進歩により,セマンティックコミュニケーションの新しいパラダイムが生まれている。 DeepJSCCベースのセマンティックコミュニケーションの優れた特徴は、ソース信号から直接意味認識機能を利用することと、これらの特徴の離散時間アナログ伝送(DTAT)である。 従来のデジタル通信と比較すると、DeepJSCCとのセマンティック通信は受信機での復元性能に優れ、チャンネル品質の低下を伴う優雅な劣化を提供するが、伝送信号のピーク対平均電力比(PAPR)も大きい。 オープンな疑問は、DeepJSCCの利得が、高PAPR連続振幅信号によってもたらされる追加の自由に由来するかどうかである。 本稿では,3つのPAPR削減手法を画像伝送に適用することにより,この問題に対処する。 我々は,送信されたPAPRを許容レベルまで抑制しながら,DeepJSCCに基づくセマンティックコミュニケーションの優れた画像再構成性能を維持することができることを確認した。 この観察は,実用的な意味コミュニケーションシステムにおけるDeepJSCCの実装に向けた重要なステップである。

Recent progress in deep learning (DL)-based joint source-channel coding (DeepJSCC) has led to a new paradigm of semantic communications. Two salient features of DeepJSCC-based semantic communications are the exploitation of semantic-aware features directly from the source signal, and the discrete-time analog transmission (DTAT) of these features. Compared with traditional digital communications, semantic communications with DeepJSCC provide superior reconstruction performance at the receiver and graceful degradation with diminishing channel quality, but also exhibit a large peak-to-average power ratio (PAPR) in the transmitted signal. An open question has been whether the gains of DeepJSCC come from the additional freedom brought by the high-PAPR continuous-amplitude signal. In this paper, we address this question by exploring three PAPR reduction techniques in the application of image transmission. We confirm that the superior image reconstruction performance of DeepJSCC-based semantic communications can be retained while the transmitted PAPR is suppressed to an acceptable level. This observation is an important step towards the implementation of DeepJSCC in practical semantic communication systems.
翻訳日:2022-08-18 13:41:40 公開日:2022-08-17
# ペナライズドミニマックス推定による未同定ニュアサンスの同定線形汎関数の偏差推論

Debiased Inference on Identified Linear Functionals of Underidentified Nuisances via Penalized Minimax Estimation ( http://arxiv.org/abs/2208.08291v1 )

ライセンス: Link先を確認
Nathan Kallus and Xiaojie Mao(参考訳) 条件付きモーメント制約の解として定義される非特異なニュアサンスの線形汎関数の一般推論について検討した。 この問題は、非パラメトリックな機器変数モデル、測定されていない境界下での近位因果推論、シャドー変数を持つ非ランダムデータなど、様々な応用に現れる。 平均的処理効果などの線形汎関数は適切な条件下では識別可能であるが、この場合共通のニュアサンス推定器は不安定であり固定限界を欠くため、ニュアザンスの非特異性は統計的推論に深刻な課題をもたらす。 本稿では,ニュアサンス関数に対するペナライズされたミニマックス推定器を提案し,この困難な設定で有効な推論を可能にすることを示す。 提案するニュアサンス推定器はフレキシブルな関数クラスに対応でき、また、ヌアザンスが一意であるか否かに関わらず、ペナリゼーションによって決定される固定限界に収束することができる。 我々は、ペナルティ化されたニュアサンス推定器を用いて、利害関係の線形汎関数に対する偏差推定器を形成し、その漸近正規性が一般的な高水準条件下で証明され、漸近的に妥当な信頼区間を与える。

We study generic inference on identified linear functionals of nonunique nuisances defined as solutions to underidentified conditional moment restrictions. This problem appears in a variety of applications, including nonparametric instrumental variable models, proximal causal inference under unmeasured confounding, and missing-not-at-random data with shadow variables. Although the linear functionals of interest, such as average treatment effect, are identifiable under suitable conditions, nonuniqueness of nuisances pose serious challenges to statistical inference, since in this setting common nuisance estimators can be unstable and lack fixed limits. In this paper, we propose penalized minimax estimators for the nuisance functions and show they enable valid inference in this challenging setting. The proposed nuisance estimators can accommodate flexible function classes, and importantly, they can converge to fixed limits determined by the penalization, regardless of whether the nuisances are unique or not. We use the penalized nuisance estimators to form a debiased estimator for the linear functional of interest and prove its asymptotic normality under generic high-level conditions, which provide for asymptotically valid confidence intervals.
翻訳日:2022-08-18 13:40:13 公開日:2022-08-17
# スライスワイズセグメンテーションを用いた効率的な動的点クラウド符号化

Efficient dynamic point cloud coding using Slice-Wise Segmentation ( http://arxiv.org/abs/2208.08061v1 )

ライセンス: Link先を確認
Faranak Tohidi, Manoranjan Paul, Anwaar Ulhaq(参考訳) 没入型ビデオシーケンスの急速な成長により、シームレスで高品質な3Dコンテンツを実現することがさらに重要である。 MPEGは最近、ダイナミックポイントクラウドコーディングのためのビデオベースのポイントクラウド圧縮(V-PCC)標準を開発した。 しかしながら、V-PCCを使用した再構成ポイントクラウドは、例えばHEVC(High-Efficiency Video Coding)のような既存のビデオ符号化技術を適用する前に、前処理中にデータを失うなど、異なるアーティファクトに悩まされている。 V-PCCを用いたデータ不足の主な原因は、3Dから2Dプロジェクションへのパッチ生成と自己隠蔽点である。 本稿では、重複スライシングをパッチ生成の代替として導入し、生成されたパッチの数と失われたデータ量を減らす方法を提案する。 提案手法では, パッチ生成過程と投影過程においてデータ損失を最小限に抑えるために, 自己閉鎖点数に基づいて, 点雲全体を可変サイズスライスに分割した。 このため、可変数の層が考慮され、部分的に重複して自己閉塞点を保持する。 提案手法の利点は、ビットの要求を減らし、スライシングベース位置を用いて幾何データを符号化することである。 実験の結果,提案手法は標準V-PCC法よりもはるかに柔軟であり,速度歪み性能が向上し,標準V-PCC法に比べてデータ損失が大幅に減少することがわかった。

With the fast growth of immersive video sequences, achieving seamless and high-quality compressed 3D content is even more critical. MPEG recently developed a video-based point cloud compression (V-PCC) standard for dynamic point cloud coding. However, reconstructed point clouds using V-PCC suffer from different artifacts, including losing data during pre-processing before applying existing video coding techniques, e.g., High-Efficiency Video Coding (HEVC). Patch generations and self-occluded points in the 3D to the 2D projection are the main reasons for missing data using V-PCC. This paper proposes a new method that introduces overlapping slicing as an alternative to patch generation to decrease the number of patches generated and the amount of data lost. In the proposed method, the entire point cloud has been cross-sectioned into variable-sized slices based on the number of self-occluded points so that data loss can be minimized in the patch generation process and projection. For this, a variable number of layers are considered, partially overlapped to retain the self-occluded points. The proposed method's added advantage is to reduce the bits requirement and to encode geometric data using the slicing base position. The experimental results show that the proposed method is much more flexible than the standard V-PCC method, improves the rate-distortion performance, and decreases the data loss significantly compared to the standard V-PCC method.
翻訳日:2022-08-18 13:39:51 公開日:2022-08-17
# DPA-1:分子シミュレーションのための注意に基づく深部電位モデルの事前学習

DPA-1: Pretraining of Attention-based Deep Potential Model for Molecular Simulation ( http://arxiv.org/abs/2208.08236v1 )

ライセンス: Link先を確認
Duo Zhang, Hangrui Bi, Fu-Zhi Dai, Wanrun Jiang, Linfeng Zhang, Han Wang(参考訳) 原子間ポテンシャルエネルギー表面(PES)のモデリングを支援する機械学習は、分子シミュレーションの分野に革命をもたらした。 高品質な電子構造データの蓄積により、利用可能なすべてのデータで事前トレーニングされ、小さな労力で下流タスクに微調整されるモデルによって、新たなステージにフィールドがもたらされる。 本稿では,原子系のコンフォメーションと化学空間の表現やpesの学習に非常に有効である,新しい注意機構を持つ深層ポテンシャルモデルであるdpa-1を提案する。 dpa-1を複数のシステムでテストし,既存のベンチマークと比較して優れた性能を示した。 56個の要素を含む大規模データセットに事前トレーニングされた場合、DPA-1はサンプル効率を大幅に向上させ、様々な下流タスクにうまく適用できる。 驚くべきことに、異なる要素に対して、学習された型埋め込みパラメータは潜時空間において$spiral$を形成し、周期表上のそれらの位置と自然な対応を持ち、事前訓練されたDPA-1モデルの興味深い解釈可能性を示す。

Machine learning assisted modeling of the inter-atomic potential energy surface (PES) is revolutionizing the field of molecular simulation. With the accumulation of high-quality electronic structure data, a model that can be pretrained on all available data and finetuned on downstream tasks with a small additional effort would bring the field to a new stage. Here we propose DPA-1, a Deep Potential model with a novel attention mechanism, which is highly effective for representing the conformation and chemical spaces of atomic systems and learning the PES. We tested DPA-1 on a number of systems and observed superior performance compared with existing benchmarks. When pretrained on large-scale datasets containing 56 elements, DPA-1 can be successfully applied to various downstream tasks with a great improvement of sample efficiency. Surprisingly, for different elements, the learned type embedding parameters form a $spiral$ in the latent space and have a natural correspondence with their positions on the periodic table, showing interesting interpretability of the pretrained DPA-1 model.
翻訳日:2022-08-18 13:38:37 公開日:2022-08-17
# CNNとPYINを組み合わせた基本周波数の抽出

Extract fundamental frequency based on CNN combined with PYIN ( http://arxiv.org/abs/2208.08354v1 )

ライセンス: Link先を確認
Ruowei Xing, Shengchen Li(参考訳) 本稿では、PYINに基づく複数の基本周波数(多重F0)の抽出、モノラル音楽の基本周波数(F0)を抽出するアルゴリズム、および入力信号のピッチセージェンス関数を生成して複数のF0を推定する訓練された畳み込みニューラルネットワーク(CNN)モデルについて述べる。 本稿では,これら2つのアルゴリズムの実装とその利点とデメリットについて述べる。 これら2つの手法の異なる性能を解析し、PYINを用いてトレーニングされたCNNモデルから抽出したF0を補足し、これらの2つのアルゴリズムの利点を組み合わせる。 評価には、2つのバイオリンが演奏する4曲を使用し、抽出したf0曲線の平坦性に合わせてモデルの性能を評価する。 その結果,単音素音楽とポリフォニック音楽からf0を抽出する際に,合成モデルが元のアルゴリズムを上回ったことを示す。

This paper refers to the extraction of multiple fundamental frequencies (multiple F0) based on PYIN, an algorithm for extracting the fundamental frequency (F0) of monophonic music, and a trained convolutional neural networks (CNN) model, where a pitch salience function of the input signal is produced to estimate the multiple F0. The implementation of these two algorithms and their corresponding advantages and disadvantages are discussed in this article. Analysing the different performance of these two methods, PYIN is applied to supplement the F0 extracted from the trained CNN model to combine the advantages of these two algorithms. For evaluation, four pieces played by two violins are used, and the performance of the models are evaluated accoring to the flatness of the F0 curve extracted. The result shows the combined model outperforms the original algorithms when extracting F0 from monophonic music and polyphonic music.
翻訳日:2022-08-18 13:38:19 公開日:2022-08-17
# ウェアラブルヒューマンアクティビティ認識システムに対するラベルフリップデータ中毒攻撃

Label Flipping Data Poisoning Attack Against Wearable Human Activity Recognition System ( http://arxiv.org/abs/2208.08433v1 )

ライセンス: Link先を確認
Abdur R. Shahid, Ahmed Imteaj, Peter Y. Wu, Diane A. Igoche, and Tauhidul Alam(参考訳) HAR(Human Activity Recognition)は、効率的な機械学習(ML)アプローチを用いて、センサデータを人間の動きに解釈する問題である。 HARシステムは信頼できないユーザーのデータに依存しており、データ中毒の攻撃を受けやすい。 毒殺攻撃では、攻撃者がセンサー読み取りを操作してトレーニングセットを汚染し、harを誤解して誤った結果を生み出す。 本稿では,データ収集フェーズにおいて,センサ読取のラベルが悪意を持って変更されるharシステムに対するラベル反転データ中毒攻撃の設計について述べる。 検知環境におけるノイズと不確実性のため、このような攻撃は認識システムに深刻な脅威をもたらす。 さらに、安全クリティカルなアプリケーションにアクティビティ認識モデルがデプロイされる場合、ラベルフリップ攻撃に対する脆弱性は危険である。 本稿では,スマートフォンによるセンサデータ収集アプリケーションを通じて,この攻撃を実際に行う方法について,光を当てる。 これは、私たちの知る限りでは、ラベルフリップ中毒によるHARモデルの攻撃を探求する初期の研究である。 提案手法の実装と,マルチ層パーセプトロン,決定木,ランダムフォレスト,XGBoostといった機械学習アルゴリズムに基づく,アクティビティ認識モデル上でのテストを行う。 最後に,K-nearest neighbors (KNN) を用いた攻撃防御機構の有効性を検討した。

Human Activity Recognition (HAR) is a problem of interpreting sensor data to human movement using an efficient machine learning (ML) approach. The HAR systems rely on data from untrusted users, making them susceptible to data poisoning attacks. In a poisoning attack, attackers manipulate the sensor readings to contaminate the training set, misleading the HAR to produce erroneous outcomes. This paper presents the design of a label flipping data poisoning attack for a HAR system, where the label of a sensor reading is maliciously changed in the data collection phase. Due to high noise and uncertainty in the sensing environment, such an attack poses a severe threat to the recognition system. Besides, vulnerability to label flipping attacks is dangerous when activity recognition models are deployed in safety-critical applications. This paper shades light on how to carry out the attack in practice through smartphone-based sensor data collection applications. This is an earlier research work, to our knowledge, that explores attacking the HAR models via label flipping poisoning. We implement the proposed attack and test it on activity recognition models based on the following machine learning algorithms: multi-layer perceptron, decision tree, random forest, and XGBoost. Finally, we evaluate the effectiveness of K-nearest neighbors (KNN)-based defense mechanism against the proposed attack.
翻訳日:2022-08-18 13:38:03 公開日:2022-08-17
# ディープラーニングに基づくアクティブノイズ制御のためのハイブリッドSFANC-FxNLMSアルゴリズム

A Hybrid SFANC-FxNLMS Algorithm for Active Noise Control based on Deep Learning ( http://arxiv.org/abs/2208.08082v1 )

ライセンス: Link先を確認
Zhengding Luo, Dongyuan Shi, and Woon-Seng Gan(参考訳) 各種ノイズに対して最適な事前学習制御フィルタを選択する選択的固定フィルタアクティブノイズ制御(sfanc)方式は、高速応答時間を実現することができる。 しかし、不正確なフィルタ選択と適応性の欠如により、大きな定常誤差が発生する可能性がある。 これに対し、FxNLMSアルゴリズムは適応最適化により低い定常誤差を得ることができる。 それにもかかわらず、その緩やかな収束は動的ノイズ減衰に有害な影響を与える。 そこで本論文では,適応アルゴリズムの遅い収束を克服し,sfanc法よりもノイズ低減レベルの高いsfanc-fxnlmsハイブリッド手法を提案する。 軽量な1次元畳み込みニューラルネットワーク(1D CNN)は、一次雑音の各フレームに最適な事前学習制御フィルタを自動的に選択するように設計されている。 一方、FxNLMSアルゴリズムは、選択した事前学習制御フィルタの係数をサンプリングレートで更新し続けている。 この2つのアルゴリズムの効果的な組み合わせにより,sfanc-fxnlmsハイブリッドアルゴリズムは高速応答時間,低雑音化誤差,高ロバスト性を実現することができることを示した。

The selective fixed-filter active noise control (SFANC) method selecting the best pre-trained control filters for various types of noise can achieve a fast response time. However, it may lead to large steady-state errors due to inaccurate filter selection and the lack of adaptability. In comparison, the filtered-X normalized least-mean-square (FxNLMS) algorithm can obtain lower steady-state errors through adaptive optimization. Nonetheless, its slow convergence has a detrimental effect on dynamic noise attenuation. Therefore, this paper proposes a hybrid SFANC-FxNLMS approach to overcome the adaptive algorithm's slow convergence and provide a better noise reduction level than the SFANC method. A lightweight one-dimensional convolutional neural network (1D CNN) is designed to automatically select the most suitable pre-trained control filter for each frame of the primary noise. Meanwhile, the FxNLMS algorithm continues to update the coefficients of the chosen pre-trained control filter at the sampling rate. Owing to the effective combination of the two algorithms, experimental results show that the hybrid SFANC-FxNLMS algorithm can achieve a rapid response time, a low noise reduction error, and a high degree of robustness.
翻訳日:2022-08-18 13:37:43 公開日:2022-08-17
# 分散学習のための効率的な検出・フィルタリングシステム

Efficient Detection and Filtering Systems for Distributed Training ( http://arxiv.org/abs/2208.08085v1 )

ライセンス: Link先を確認
Konstantinos Konstantinidis and Aditya Ramamoorthy(参考訳) 現代の機械学習タスクの多くは、トレーニングパイプラインの重要なコンポーネントとして大規模分散クラスタを使用する必要がある。 しかし、作業ノードの異常なビザンチン挙動は、トレーニングを脱線させ、推論の品質を損なう可能性がある。 このような動作は意図しないシステム障害や組織的攻撃によるものでもあり、結果として、トレーニングを調整するパラメータサーバ(PS)に任意の結果を返すノードもある。 最近の研究は、幅広い攻撃モデルを検討し、歪んだ勾配を補正するためにロバストアグリゲーションと/または計算冗長性を検討した。 本研究では,攻撃モデルについて検討する。$q$ 防御プロトコルに精通し,反復から弱いものへ変更できる。$q$ ランダムに選択した敵は,一度に数回のイテレーションでのみ変更可能な,限定的な結束能力を持つ。 我々のアルゴリズムは、冗長なタスク割り当てと敵対行動の検出に頼っている。 強い攻撃に対して, 従来の最先端技術と比較して, 16 %-99 % 程度の歪み勾配の減少を示す。 CIFAR-10データセット上のトップ1分類精度は、最先端の手法と比較して、最も高度な攻撃条件下での精度(強大なシナリオと弱大なシナリオよりも平均25倍の優位性を示す。

A plethora of modern machine learning tasks require the utilization of large-scale distributed clusters as a critical component of the training pipeline. However, abnormal Byzantine behavior of the worker nodes can derail the training and compromise the quality of the inference. Such behavior can be attributed to unintentional system malfunctions or orchestrated attacks; as a result, some nodes may return arbitrary results to the parameter server (PS) that coordinates the training. Recent work considers a wide range of attack models and has explored robust aggregation and/or computational redundancy to correct the distorted gradients. In this work, we consider attack models ranging from strong ones: $q$ omniscient adversaries with full knowledge of the defense protocol that can change from iteration to iteration to weak ones: $q$ randomly chosen adversaries with limited collusion abilities which only change every few iterations at a time. Our algorithms rely on redundant task assignments coupled with detection of adversarial behavior. For strong attacks, we demonstrate a reduction in the fraction of distorted gradients ranging from 16\%-99\% as compared to the prior state-of-the-art. Our top-1 classification accuracy results on the CIFAR-10 data set demonstrate 25\% advantage in accuracy (averaged over strong and weak scenarios) under the most sophisticated attacks compared to state-of-the-art methods.
翻訳日:2022-08-18 13:37:24 公開日:2022-08-17
# 18のプログラミング言語に対するNL2Codeのベンチマークのためのスケーラブルで拡張可能なアプローチ

A Scalable and Extensible Approach to Benchmarking NL2Code for 18 Programming Languages ( http://arxiv.org/abs/2208.08227v1 )

ライセンス: Link先を確認
Federico Cassano, John Gouwar, Daniel Nguyen, Sydney Nguyen, Luna Phipps-Costin, Donald Pinckney, Ming Ho Yee, Yangtian Zi, Carolyn Jane Anderson, Molly Q Feldman, Arjun Guha, Michael Greenberg, Abhinav Jangda(参考訳) 大規模言語モデルは、自然言語とプログラミング言語のテキストの両方を条件付けし、生成する能力を示している。 コード生成モデルは、ある言語から別の言語への知識を一般化できるだろうか? 現代のコード生成モデルは、セマンティックに正しいPythonコードを生成することができるが、他の言語との能力についてはほとんど知られていない。 我々は、自然言語からコードへ生成する最初のマルチ言語並列ベンチマークであるMultiPL-Eを提案することにより、このトピックの探索を容易にする。 multipl-e は humaneval benchmark (chen et al, 2021) を拡張し、18のプログラミング言語をサポートし、様々なプログラミングパラダイムと人気を包含している。 我々は,MultiPL-Eのコード生成モデルであるCodexとInCoderの評価を行った。 いくつかの言語では、Codexが一致し、Pythonのパフォーマンスを超えています。 MultiPL-Eで表現される言語の範囲は、言語周波数と言語特徴がモデル性能に与える影響を調査することができる。 最後に、コード生成ベンチマークを新しいプログラミング言語にコンパイルするMultiPL-Eアプローチは、スケーラブルで拡張性がある。 我々はMultiPL-Eに新しいベンチマークや言語を簡単に追加するための一般的なアプローチについて述べる。

Large language models have demonstrated the ability to condition on and generate both natural language and programming language text. Such models open up the possibility of multi-language code generation: could code generation models generalize knowledge from one language to another? Although contemporary code generation models can generate semantically correct Python code, little is known about their abilities with other languages. We facilitate the exploration of this topic by proposing MultiPL-E, the first multi-language parallel benchmark for natural-language-to-code-generation. MultiPL-E extends the HumanEval benchmark (Chen et al, 2021) to support 18 more programming languages, encompassing a range of programming paradigms and popularity. We evaluate two state-of-the-art code generation models on MultiPL-E: Codex and InCoder. We find that on several languages, Codex matches and even exceeds its performance on Python. The range of programming languages represented in MultiPL-E allow us to explore the impact of language frequency and language features on model performance. Finally, the MultiPL-E approach of compiling code generation benchmarks to new programming languages is both scalable and extensible. We describe a general approach for easily adding support for new benchmarks and languages to MultiPL-E.
翻訳日:2022-08-18 13:34:26 公開日:2022-08-17
# グラフマッチングのための動的ソフトアサインと適応パラメータチューニング

Dynamical softassign and adaptive parameter tuning for graph matching ( http://arxiv.org/abs/2208.08233v1 )

ライセンス: Link先を確認
Binrui Shen, Qiang Niu, Shengxin Zhu(参考訳) 本稿では,グラフマッチングのためのフレームワーク,射影固定点法について検討する。 このフレームワークは、逐次代入(GA)、整数射影固定点法(IPFP)、二重確率射影固定点法(DSPFP)を含む人気のあるグラフマッチングアルゴリズムのクラスを含む。 本フレームワークでは,ステップサイズパラメータをチューニングするための適応戦略を提案する。 このような戦略はこれらのアルゴリズムを効率と精度で改善する。 さらに、基礎となるアルゴリズムの収束を保証する。 距離幾何学に基づく予備解析では、グラフが完全連結であるときに最適なステップサイズパラメータが 1 の確率が高いことを支持しているようである。 次に,人気のある投影法であるsoftassignは,グラフの濃度(サイズ)に敏感であることがわかった。 我々は,グラフの濃度にロバストな動的ソフトアサインアルゴリズムを提案する。 適応的なステップサイズと動的ソフトアサインを組み合わせることで,動的ソフトアサイン付き適応投影固定点法という新しいグラフマッチングアルゴリズムを提案する。 様々な実験により、提案アルゴリズムは精度を損なうことなく、他の最先端アルゴリズムよりも大幅に高速であることが示された。

This paper studies a framework, projected fixed-point method, for graph matching. The framework contains a class of popular graph matching algorithms, including graduated assignment (GA), integer projected fixed-point method (IPFP) and doubly stochastic projected fixed-point method (DSPFP). We propose an adaptive strategy to tune the step size parameter in this framework. Such a strategy improves these algorithms in efficiency and accuracy. Further, it guarantees the convergence of the underlying algorithms. Some preliminary analysis based on distance geometry seems to support that the optimal step size parameter has a high probability of 1 when graphs are fully connected. Secondly, it is observed that a popular projection method, softassign, is sensitive to graphs' cardinality(size). We proposed a dynamical softassign algorithm that is robust to graphs' cardinality. Combining the adaptive step size and the dynamical softassign, we propose a novel graph matching algorithm: the adaptive projected fixed-point method with dynamical softassign. Various experiments demonstrate that the proposed algorithm is significantly faster than several other state-of-art algorithms with no loss of accuracy.
翻訳日:2022-08-18 13:34:09 公開日:2022-08-17
# 株価予測のためのトランスフォーマーに基づくディープラーニングモデル:バングラデシュ株式市場を事例として

Transformer-Based Deep Learning Model for Stock Price Prediction: A Case Study on Bangladesh Stock Market ( http://arxiv.org/abs/2208.08300v1 )

ライセンス: Link先を確認
Tashreef Muhammad, Anika Bintee Aftab, Md. Mainul Ahsan, Maishameem Meherin Muhu, Muhammad Ibrahim, Shahidul Islam Khan and Mohammad Shafiul Alam(参考訳) 現代の資本市場において、株価は様々な社会的、経済的、政治的、その他の動的要因のために、非常に不安定で予測不可能であるとみなされることが多い。 計算と思慮深い投資により、株式市場は最小資本投資でハンサムな利益を確保でき、誤った予測は投資家に破滅的な財政損失を容易にもたらすことができる。 本稿では,バングラデシュ最大の証券取引所であるDhaka Stock Exchange(DSE)の株価を予測するために,最近導入された機械学習モデルであるTransformerモデルを適用した。 トランスモデルは自然言語処理やコンピュータビジョンタスクに広く利用されているが、私たちの知る限り、DSEの株価予測タスクには使用されていない。 近年,時系列特徴を表すtime2vecエンコーディングの導入により,株価予測にトランスフォーマモデルを適用することが可能となった。 本稿では, トランスフォーマーモデルを用いて, 日刊・週刊データに基づいて, DSEに記載されている8種銘柄の価格変動を予測する。 我々の実験は、ほとんどの株に有望な結果と許容される根平均二乗誤差を示している。

In modern capital market the price of a stock is often considered to be highly volatile and unpredictable because of various social, financial, political and other dynamic factors. With calculated and thoughtful investment, stock market can ensure a handsome profit with minimal capital investment, while incorrect prediction can easily bring catastrophic financial loss to the investors. This paper introduces the application of a recently introduced machine learning model - the Transformer model, to predict the future price of stocks of Dhaka Stock Exchange (DSE), the leading stock exchange in Bangladesh. The transformer model has been widely leveraged for natural language processing and computer vision tasks, but, to the best of our knowledge, has never been used for stock price prediction task at DSE. Recently the introduction of time2vec encoding to represent the time series features has made it possible to employ the transformer model for the stock price prediction. This paper concentrates on the application of transformer-based model to predict the price movement of eight specific stocks listed in DSE based on their historical daily and weekly data. Our experiments demonstrate promising results and acceptable root mean squared error on most of the stocks.
翻訳日:2022-08-18 13:32:22 公開日:2022-08-17
# 最小コスト適応サブモジュラカバー

Minimum Cost Adaptive Submodular Cover ( http://arxiv.org/abs/2208.08351v1 )

ライセンス: Link先を確認
Yubing Cui and Viswanath Nagarajan(参考訳) 適応サブモジュラー関数の最小コストカバーの問題を検討し、qを目標値とする4(ln q+1)近似アルゴリズムを提供する。 この境界はほぼ最良であり、問題は ln q よりも近似比が良い(p=np でない)ことは認めない。 その結果,この問題に対する最初のo(ln q)近似アルゴリズムが得られた。 従来、o(ln q)近似アルゴリズムは独立アイテムか単位コストアイテムかを仮定してしか知られていなかった。 さらに,複数の適応サブモジュラー関数を同時にカバーしたいという設定にも容易に拡張できる:この一般化のための最初の近似アルゴリズムを得る。

We consider the problem of minimum cost cover of adaptive-submodular functions, and provide a 4(ln Q+1)-approximation algorithm, where Q is the goal value. This bound is nearly the best possible as the problem does not admit any approximation ratio better than ln Q (unless P=NP). Our result is the first O(ln Q)-approximation algorithm for this problem. Previously, O(ln Q) approximation algorithms were only known assuming either independent items or unit-cost items. Furthermore, our result easily extends to the setting where one wants to simultaneously cover multiple adaptive-submodular functions: we obtain the first approximation algorithm for this generalization.
翻訳日:2022-08-18 13:32:04 公開日:2022-08-17
# counterfactual-shapley値: システムメトリクスの変化の帰結

The Counterfactual-Shapley Value: Attributing Change in System Metrics ( http://arxiv.org/abs/2208.08399v1 )

ライセンス: Link先を確認
Amit Sharma, Hua Li, Jian Jiao(参考訳) 大規模システムのアウトプットメトリックが予期せぬ変化をすると、なぜ変化が起こったのか:どの入力がメトリックの変化を引き起こしたか? このような帰属問題の鍵となる要素は、反事実を推定することである: 単一の入力の特定の変更による(仮説上の)システム計量の変化。 しかし、システム部分間の固有確率性と複雑な相互作用のため、直接出力計量をモデル化することは困難である。 システムの計算構造を利用して、各サブパーツが時間とともに正確にモデル化できるより安定したメカニズムに対応するように、モデリングタスクをサブパーツに分割する。 システムの構造を利用することで、計量を構造因果モデル(SCM)上の計算と見なすのにも役立ち、反事実を推定する原則的な方法を提供する。 具体的には,時系列予測モデルを用いて反事実を推定し,観測された指標の変化を帰属するための望ましい公理と一致する帰属スコアcf-shapleyを構築する手法を提案する。 因果シェープリー値に関する過去の研究とは違い,提案手法は(集団レベルの効果ではなく)出力の単一変化を属性とし,シミュレートされたデータセットで評価した場合,より正確な帰属スコアを提供する。 実世界のアプリケーションとして、広告マッチング密度の指標に観測された変化をもたらすことを目的として、クエリ-アドマッチングシステムを分析する。 アトリビューションスコアは、異なるクエリカテゴリからのクエリボリュームと広告要求が広告マッチング密度にどのように影響するかを説明し、効果的な洞察をもたらし、マッチング密度を駆動する外部イベント(例えば「チータの日」)の役割を明らかにする。

Given an unexpected change in the output metric of a large-scale system, it is important to answer why the change occurred: which inputs caused the change in metric? A key component of such an attribution question is estimating the counterfactual: the (hypothetical) change in the system metric due to a specified change in a single input. However, due to inherent stochasticity and complex interactions between parts of the system, it is difficult to model an output metric directly. We utilize the computational structure of a system to break up the modelling task into sub-parts, such that each sub-part corresponds to a more stable mechanism that can be modelled accurately over time. Using the system's structure also helps to view the metric as a computation over a structural causal model (SCM), thus providing a principled way to estimate counterfactuals. Specifically, we propose a method to estimate counterfactuals using time-series predictive models and construct an attribution score, CF-Shapley, that is consistent with desirable axioms for attributing an observed change in the output metric. Unlike past work on causal shapley values, our proposed method can attribute a single observed change in output (rather than a population-level effect) and thus provides more accurate attribution scores when evaluated on simulated datasets. As a real-world application, we analyze a query-ad matching system with the goal of attributing observed change in a metric for ad matching density. Attribution scores explain how query volume and ad demand from different query categories affect the ad matching density, leading to actionable insights and uncovering the role of external events (e.g., "Cheetah Day") in driving the matching density.
翻訳日:2022-08-18 13:31:53 公開日:2022-08-17
# 任意分布シフトを用いたオンライン予測のための共形推論

Conformal Inference for Online Prediction with Arbitrary Distribution Shifts ( http://arxiv.org/abs/2208.08401v1 )

ライセンス: Link先を確認
Isaac Gibbs and Emmanuel Cand\`es(参考訳) 共形推論は、任意のブラックボックスモデル(ニューラルネットワーク、ランダムフォレストなど)によってなされる予測を有効な予測集合に変換する柔軟な手法である。 唯一の必要条件は、トレーニングデータとテストデータが交換可能であることである(例:d)。 残念ながら、この仮定は通常、データを生成する処理が時間によって変化し、連続するデータポイントが時間的に相関するオンライン環境では非現実的である。 本稿では,これらの偏差に頑健な予測区間を生成するオンラインアルゴリズムを開発する。 我々の手法は共形推論に基づいており、任意のブラックボックス予測器と組み合わせることができる。 その結果,本アルゴリズムのカバレッジ誤差は環境の変化の大きさによって制御されるため,分布シフトの大きさと予測問題の難易度を直接結びつけることができることがわかった。 最後に,本手法を実世界の2つの環境に応用し,実世界の動的条件下で頑健な予測間隔を生成する。

Conformal inference is a flexible methodology for transforming the predictions made by any black-box model (e.g. neural nets, random forests) into valid prediction sets. The only necessary assumption is that the training and test data be exchangeable (e.g. i.i.d.). Unfortunately, this assumption is usually unrealistic in online environments in which the processing generating the data may vary in time and consecutive data-points are often temporally correlated. In this article, we develop an online algorithm for producing prediction intervals that are robust to these deviations. Our methods build upon conformal inference and thus can be combined with any black-box predictor. We show that the coverage error of our algorithm is controlled by the size of the underlying change in the environment and thus directly connect the size of the distribution shift with the difficulty of the prediction problem. Finally, we apply our procedure in two real-world settings and find that our method produces robust prediction intervals under real-world dynamics.
翻訳日:2022-08-18 13:31:26 公開日:2022-08-17
# 隠れマルコフ連鎖対リカレントニューラルネットワークのシステム理論的観点からの表現性

Expressivity of Hidden Markov Chains vs. Recurrent Neural Networks from a system theoretic viewpoint ( http://arxiv.org/abs/2208.08175v1 )

ライセンス: Link先を確認
Fran\c{c}ois Desbouvries (TSP), Yohan Petetin (TSP), Achille Sala\"un(参考訳) Hidden Markov Chains (HMC) と Recurrent Neural Networks (RNN) は時系列を予測するツールとしてよく知られている。 これらの解は独立したコミュニティで独自に開発されたが、確率的構造と見なすといくつかの類似点を共有している。 そこで本稿では,まずHMCとRNNを生成モデルとみなし,両構造を共通生成統一モデル(GUM)に組み込む。 次に,これらのモデルの表現性の比較研究を行う。 そのために、モデルはさらに線型でガウス的であると仮定する。 これらのモデルによって生成される確率分布は構造化共分散級数によって特徴づけられ、結果として表現性は構造共分散級数の集合の比較に減少する。 最終的に、与えられた共分散級数が GUM, HMC, RNN によって実現可能な条件を提供する。

Hidden Markov Chains (HMC) and Recurrent Neural Networks (RNN) are two well known tools for predicting time series. Even though these solutions were developed independently in distinct communities, they share some similarities when considered as probabilistic structures. So in this paper we first consider HMC and RNN as generative models, and we embed both structures in a common generative unified model (GUM). We next address a comparative study of the expressivity of these models. To that end we assume that the models are furthermore linear and Gaussian. The probability distributions produced by these models are characterized by structured covariance series, and as a consequence expressivity reduces to comparing sets of structured covariance series, which enables us to call for stochastic realization theory (SRT). We finally provide conditions under which a given covariance series can be realized by a GUM, an HMC or an RNN.
翻訳日:2022-08-18 13:28:27 公開日:2022-08-17
# 不完全多視点クラスタリングに関する調査

A Survey on Incomplete Multi-view Clustering ( http://arxiv.org/abs/2208.08040v1 )

ライセンス: Link先を確認
Jie Wen, Zheng Zhang, Lunke Fei, Bob Zhang, Yong Xu, Zhao Zhang, Jinxing Li(参考訳) 従来のマルチビュークラスタリングでは、すべてのビューが完全に観察されているという仮定に基づいて、データを各グループに分割する。 しかし,疾患診断やマルチメディア分析,レコメンデーションシステムなどの実践的応用においては,従来のマルチビュークラスタリング手法の失敗につながるサンプルのすべてのビューが利用できるわけではないことがよく見られる。 このような不完全なマルチビューデータのクラスタリングは、不完全マルチビュークラスタリングと呼ばれる。 有望な応用可能性を考えると、不完全なマルチビュークラスタリングの研究は近年目立った進歩を遂げている。 しかし、現状を概観し、今後の研究方向性を指摘する調査は行われていない。 そこで本研究では,不完全マルチビュークラスタリングに関する最近の研究を概観する。 重要なことに、我々は、対応する不完全なマルチビュークラスタリング手法を統合するためのフレームワークを提供し、理論的および実験的観点から、いくつかの代表的な手法について詳細な比較分析を行う。 最後に、不完全なマルチビュークラスタリング分野におけるいくつかのオープンな問題が研究者に提示されている。

Conventional multi-view clustering seeks to partition data into respective groups based on the assumption that all views are fully observed. However, in practical applications, such as disease diagnosis, multimedia analysis, and recommendation system, it is common to observe that not all views of samples are available in many cases, which leads to the failure of the conventional multi-view clustering methods. Clustering on such incomplete multi-view data is referred to as incomplete multi-view clustering. In view of the promising application prospects, the research of incomplete multi-view clustering has noticeable advances in recent years. However, there is no survey to summarize the current progresses and point out the future research directions. To this end, we review the recent studies of incomplete multi-view clustering. Importantly, we provide some frameworks to unify the corresponding incomplete multi-view clustering methods, and make an in-depth comparative analysis for some representative methods from theoretical and experimental perspectives. Finally, some open problems in the incomplete multi-view clustering field are offered for researchers.
翻訳日:2022-08-18 13:26:55 公開日:2022-08-17
# シーケンス決定のレンズを通してのサンプリング

Sampling Through the Lens of Sequential Decision Making ( http://arxiv.org/abs/2208.08056v1 )

ライセンス: Link先を確認
Jason Xiaotian Dou, Alvin Qingkai Pan, Runxue Bao, Haiyi Harry Mao, Lei Luo(参考訳) サンプリングは機械学習の方法論においてユビキタスである。 大規模なデータセットの増加とモデルの複雑さのため、表現をトレーニングしながらサンプリングプロセスを学び、適応させたいと思っています。 この大目標を達成するために、様々なサンプリング技術が提案されている。 しかし、その多くは固定サンプリングスキームを使用するか、単純なヒューリスティックに基づいてサンプリングスキームを調整する。 異なる段階のモデルトレーニングに最適なサンプルを選択することはできない。 認知科学における"Think, Fast and Slow" (System 1 and System 2) に触発された我々は,この課題に取り組むために,Adaptive Sample with Reward (ASR) と呼ばれる報酬誘導サンプリング戦略を提案する。 我々の知る限りでは、表現学習におけるサンプリング問題に対処するために強化学習(RL)を利用した最初の研究である。 提案手法は,サンプリング過程を最適に調整し,最適性能を実現する。 距離に基づくサンプリングによりサンプル間の地理的関係を探索し,全体の累積報酬を最大化する。 類似性に基づく損失関数の長期サンプリング問題にASRを適用した。 情報検索とクラスタリングの実証的な結果は、異なるデータセット間でのASRのスーパーブパフォーマンスを示している。 また,実験で「asr重力井戸」と名づけたエングロッシング現象についても考察した。

Sampling is ubiquitous in machine learning methodologies. Due to the growth of large datasets and model complexity, we want to learn and adapt the sampling process while training a representation. Towards achieving this grand goal, a variety of sampling techniques have been proposed. However, most of them either use a fixed sampling scheme or adjust the sampling scheme based on simple heuristics. They cannot choose the best sample for model training in different stages. Inspired by "Think, Fast and Slow" (System 1 and System 2) in cognitive science, we propose a reward-guided sampling strategy called Adaptive Sample with Reward (ASR) to tackle this challenge. To the best of our knowledge, this is the first work utilizing reinforcement learning (RL) to address the sampling problem in representation learning. Our approach optimally adjusts the sampling process to achieve optimal performance. We explore geographical relationships among samples by distance-based sampling to maximize overall cumulative reward. We apply ASR to the long-standing sampling problems in similarity-based loss functions. Empirical results in information retrieval and clustering demonstrate ASR's superb performance across different datasets. We also discuss an engrossing phenomenon which we name as "ASR gravity well" in experiments.
翻訳日:2022-08-18 13:26:40 公開日:2022-08-17
# AIを活用した自律システム監査のための基盤石としての保証事例--ワークショップ結果とExamAIプロジェクトからの行動推奨

Assurance Cases as Foundation Stone for Auditing AI-enabled and Autonomous Systems: Workshop Results and Political Recommendations for Action from the ExamAI Project ( http://arxiv.org/abs/2208.08198v1 )

ライセンス: Link先を確認
Rasmus Adler and Michael Klaes(参考訳) 欧州機械指令と関連する調和標準は、ソフトウェアは機械の安全関連行動を生成するために使用されるが、あらゆる種類のソフトウェアを考慮しないと考えている。 特に、機械学習(ML)に基づくソフトウェアは、安全関連行動の実現には向けられていない。 これにより、MLベースの機能に依存する自律移動ロボットや他の自律機械に適した安全概念の導入が制限される。 この問題と,ソフトウェア障害に対する安全対策を規定する安全基準について検討した。 機能安全基準は、どの安全対策を実施するかを定義するために安全整合性レベル(sils)を使用する。 これらは、SILを決定するためのルールと、SILに依存する安全対策を選択するためのルールを提供する。 本稿では,MLや他の人工知能(AI)に関して,このアプローチをほとんど適用できないことを論じる。 本報告では,SILを決定するための単純なルールや,それに関連する障害対策を適用する代わりに,個別に選択し,適用した措置が与えられた場合に十分であると主張する保証事例の利用を提案する。 本提案の実施可能性と有用性に関する最初の評価を得るため,我々は,産業,ドイツの法定事故保険会社,労働安全標準化委員会,および安全とaiを扱う各国,欧州,国際作業グループの代表者からなるワークショップで,提案を提示し,議論した。 本稿では,提案とワークショップの議論を要約する。 さらに、当社の提案が、欧州ai法の提案と、aiおよび自律システムに関する現在の安全標準化イニシアティブとどの程度一致しているかを確認します。

The European Machinery Directive and related harmonized standards do consider that software is used to generate safety-relevant behavior of the machinery but do not consider all kinds of software. In particular, software based on machine learning (ML) are not considered for the realization of safety-relevant behavior. This limits the introduction of suitable safety concepts for autonomous mobile robots and other autonomous machinery, which commonly depend on ML-based functions. We investigated this issue and the way safety standards define safety measures to be implemented against software faults. Functional safety standards use Safety Integrity Levels (SILs) to define which safety measures shall be implemented. They provide rules for determining the SIL and rules for selecting safety measures depending on the SIL. In this paper, we argue that this approach can hardly be adopted with respect to ML and other kinds of Artificial Intelligence (AI). Instead of simple rules for determining an SIL and applying related measures against faults, we propose the use of assurance cases to argue that the individually selected and applied measures are sufficient in the given case. To get a first rating regarding the feasibility and usefulness of our proposal, we presented and discussed it in a workshop with experts from industry, German statutory accident insurance companies, work safety and standardization commissions, and representatives from various national, European, and international working groups dealing with safety and AI. In this paper, we summarize the proposal and the workshop discussion. Moreover, we check to which extent our proposal is in line with the European AI Act proposal and current safety standardization initiatives addressing AI and Autonomous Systems
翻訳日:2022-08-18 13:26:23 公開日:2022-08-17
# AHEAD: 3つの注意に基づく異種グラフ異常検出手法

AHEAD: A Triple Attention Based Heterogeneous Graph Anomaly Detection Approach ( http://arxiv.org/abs/2208.08200v1 )

ライセンス: Link先を確認
Shujie Yang, Binchi Zhang, Shangbin Feng, Zhaoxuan Tan, Qinghua Zheng, Jun Zhou, Minnan Luo(参考訳) 属性付きネットワーク上のグラフ異常検出は、多くの影響力のある領域で広く応用されているため、広く研究の対象となっている。 実世界のシナリオでは、属性付きネットワークのノードとエッジは、通常、異なるタイプのノードの属性は大きな多様性を示し、異なるタイプの関係は様々な意味を表す。 異常は通常、これらのネットワークにおける異質性の様々な観点で多数派と異なる働きをする。 しかし、既存のグラフ異常検出手法は、異常検出と非常に関連のある帰属ネットワークにおける異種性を利用しない。 この問題を考慮し、エンコーダ・デコーダフレームワークに基づく異種性を考慮した教師なしグラフ異常検出手法AHEADを提案する。 具体的には, 属性レベル, ノードタイプレベル, エッジレベルアテンションの3つのレベルを設計し, ネットワーク構造, ノード特性, 単一ノードの情報の不均一性を捉える。 復号器では、構造、属性、ノードタイプ再構成項を利用して各ノードの異常スコアを求める。 複数の実世界の異種情報ネットワーク上でのAHEADの優位性は、教師なし環境における最先端技術と比較できる。 さらなる実験により、トリプルアテンション、モデルバックボーン、一般的なデコーダの有効性と堅牢性が検証された。

Graph anomaly detection on attributed networks has become a prevalent research topic due to its broad applications in many influential domains. In real-world scenarios, nodes and edges in attributed networks usually display distinct heterogeneity, i.e. attributes of different types of nodes show great variety, different types of relations represent diverse meanings. Anomalies usually perform differently from the majority in various perspectives of heterogeneity in these networks. However, existing graph anomaly detection approaches do not leverage heterogeneity in attributed networks, which is highly related to anomaly detection. In light of this problem, we propose AHEAD: a heterogeneity-aware unsupervised graph anomaly detection approach based on the encoder-decoder framework. Specifically, for the encoder, we design three levels of attention, i.e. attribute level, node type level, and edge level attentions to capture the heterogeneity of network structure, node properties and information of a single node, respectively. In the decoder, we exploit structure, attribute, and node type reconstruction terms to obtain an anomaly score for each node. Extensive experiments show the superiority of AHEAD on several real-world heterogeneous information networks compared with the state-of-arts in the unsupervised setting. Further experiments verify the effectiveness and robustness of our triple attention, model backbone, and decoder in general.
翻訳日:2022-08-18 13:25:57 公開日:2022-08-17
# オープンアクセスの公開を促す要因は? springer natureのケーススタディ

Which Factors Drive Open Access Publishing? A Springer Nature Case Study ( http://arxiv.org/abs/2208.08221v1 )

ライセンス: Link先を確認
Fakhri Momeni, Stefan Dietze, Philipp Mayr, Kristin Biesenbender and Isabella Peters(参考訳) Open Access (OA)は、記事へのアクセスを容易にする。 しかし、著者や資金提供者は、OAの出版に金銭的支援を受けていない著者がOAの記事の引用に関わらないよう、出版費用を支払わなければならないことが多い。 OAは、出版システムにおける既存の不平等を克服するよりも、さらに悪化させる可能性がある。 本研究では,Springer Natureの522,664項目について検討した。 統計学的手法を用いて、異なる所得水準の国に属する著者と出版選択(OAまたはクローズドアクセス)の関係、および論文の引用効果について述べる。 機械学習の分類法は,著者のOA出版と属性の関係,特にAPC出版者や割引業者,雑誌,国,紙の適性を検討するのに役立った。 以上の結果から,APC-waivers に該当する著者は,他の著者よりも金-OA-journals に多いことが示唆された。 対照的に、APC割引を受ける著者は、OA出版物の中で最も低い割合であり、この割引が著者にゴールドOAジャーナルで出版する動機を不十分にしていると仮定する。 雑誌のランクは金-OAジャーナルで出版する上で重要な要因であるが、OAオプションは主にハイブリッドジャーナルでは避けられている。 高齢者、OA出版経験、科学分野は、OA出版において最も決定的な要素である。

Open Access (OA) facilitates access to articles. But, authors or funders often must pay the publishing costs preventing authors who do not receive financial support from participating in OA publishing and citation advantage for OA articles. OA may exacerbate existing inequalities in the publication system rather than overcome them. To investigate this, we studied 522,664 articles published by Springer Nature. Employing statistical methods, we describe the relationship between authors affiliated with countries from different income levels, their choice of publishing (OA or closed access), and the citation impact of their papers. A machine learning classification method helped us to explore the association between OA-publishing and attributes of the author, especially eligibility for APC-waivers or discounts, journal, country, and paper. The results indicate that authors eligible for the APC-waivers publish more in gold-OA-journals than other authors. In contrast, authors eligible for an APC discount have the lowest ratio of OA publications, leading to the assumption that this discount insufficiently motivates authors to publish in a gold-OA-journal. The rank of journals is a significant driver for publishing in a gold-OA-journal, whereas the OA option is mostly avoided in hybrid journals. Seniority, experience with OA publications, and the scientific field are the most decisive factors in OA-publishing.
翻訳日:2022-08-18 13:25:38 公開日:2022-08-17
# 高齢者の車内警報モニタリング

In-vehicle alertness monitoring for older adults ( http://arxiv.org/abs/2208.08091v1 )

ライセンス: Link先を確認
Heng Yao, Sanaz Motamedi, Wayne C.W. Giang, Alexandra Kondyli, Eakta Jain(参考訳) 運転時のアラート監視は安全性を改善し、命を救う。 コンピュータビジョンに基づく警報監視は研究の活発な領域である。 しかし、アラートネスモニタリングのためのアルゴリズムとデータセットは、主に若い成人(18~50歳)を対象としている。 高齢者に対する車内警戒監視システムを提案する。 設計研究を通じて,高齢者がレベル5の車両で独立して移動するのに適した変数とパラメータを確認した。 高齢者10名(70歳以上)を対象に,プロトタイプトラベラー監視システムを実装し,警報検出アルゴリズムの評価を行った。 本報告では,初期研究者や実践者に適した詳細レベルでのシステム設計と実装について報告する。 本研究は,高齢者を対象としたアラートモニタリングシステムの開発において,データセット開発が最重要課題であることを示唆している。 本研究は,未研究個体群としては初めてであり,参加型手法によるアルゴリズム開発とシステム設計の今後の研究に寄与する。

Alertness monitoring in the context of driving improves safety and saves lives. Computer vision based alertness monitoring is an active area of research. However, the algorithms and datasets that exist for alertness monitoring are primarily aimed at younger adults (18-50 years old). We present a system for in-vehicle alertness monitoring for older adults. Through a design study, we ascertained the variables and parameters that are suitable for older adults traveling independently in Level 5 vehicles. We implemented a prototype traveler monitoring system and evaluated the alertness detection algorithm on ten older adults (70 years and older). We report on the system design and implementation at a level of detail that is suitable for the beginning researcher or practitioner. Our study suggests that dataset development is the foremost challenge for developing alertness monitoring systems targeted at older adults. This study is the first of its kind for a hitherto under-studied population and has implications for future work on algorithm development and system design through participatory methods.
翻訳日:2022-08-18 13:22:36 公開日:2022-08-17
# マルチディープcnnアーキテクチャを用いた商用車両のブラインドスポット衝突検出システム

Blind-Spot Collision Detection System for Commercial Vehicles Using Multi Deep CNN Architecture ( http://arxiv.org/abs/2208.08224v1 )

ライセンス: Link先を確認
Muhammad Muzammel, Mohd Zuki Yusoff, Mohamad Naufal Mohamad Saad, Faryal Sheikh and Muhammad Ahsan Awais(参考訳) バスや大型車両は大型のため、車や他の道路車両に比べて盲点が多い。 そのため、重車両による事故は致命的であり、他の道路利用者に重傷を負わせている。 これらの盲点衝突は、視覚に基づく物体検出手法を用いて早期に特定できる。 しかし、既存の最先端のビジョンベースのオブジェクト検出モデルは、決定を行うための単一の機能記述子に大きく依存している。 本研究では、高レベル特徴記述子に基づく2つの畳み込みニューラルネットワーク(CNN)の設計と、より高速なR-CNNとの統合を提案し、重車両の盲点衝突を検出する。 さらに,2つの事前訓練ネットワーク(Resnet 50とResnet 101)を統合して,盲点車両検出のための高レベル特徴を抽出する融合手法を提案する。 機能の融合により、より高速なR-CNNの性能が大幅に向上し、既存の最先端手法よりも優れていた。 どちらのアプローチも、バス用の自己記録された盲点車両検出データセットと、車両検出のためのオンラインlisaデータセットで検証される。 どちらのアプローチも、自己記録データセットに対して3.05%と3.49%の偽検出率(FDR)が得られ、これらのアプローチはリアルタイムアプリケーションに適している。

Buses and heavy vehicles have more blind spots compared to cars and other road vehicles due to their large sizes. Therefore, accidents caused by these heavy vehicles are more fatal and result in severe injuries to other road users. These possible blind-spot collisions can be identified early using vision-based object detection approaches. Yet, the existing state-of-the-art vision-based object detection models rely heavily on a single feature descriptor for making decisions. In this research, the design of two convolutional neural networks (CNNs) based on high-level feature descriptors and their integration with faster R-CNN is proposed to detect blind-spot collisions for heavy vehicles. Moreover, a fusion approach is proposed to integrate two pre-trained networks (i.e., Resnet 50 and Resnet 101) for extracting high level features for blind-spot vehicle detection. The fusion of features significantly improves the performance of faster R-CNN and outperformed the existing state-of-the-art methods. Both approaches are validated on a self-recorded blind-spot vehicle detection dataset for buses and an online LISA dataset for vehicle detection. For both proposed approaches, a false detection rate (FDR) of 3.05% and 3.49% are obtained for the self recorded dataset, making these approaches suitable for real time applications.
翻訳日:2022-08-18 13:22:24 公開日:2022-08-17
# 移動学習を用いたマルチプラナーUNetを用いた股関節の自動分割

Auto-segmentation of Hip Joints using MultiPlanar UNet with Transfer learning ( http://arxiv.org/abs/2208.08226v1 )

ライセンス: Link先を確認
Peidi Xu, Faezeh Moshfeghifar, Torkan Gholamalizadeh, Michael Bachmann Nielsen, Kenny Erleben, Sune Darkner(参考訳) 正確な幾何学表現は有限要素モデルの開発に不可欠である。 一般的には良いが、データが少ないディープラーニングのセグメンテーションアプローチでは、ギャップや薄い構造といった細かい特徴を正確にセグメンテーションするのが困難である。 その後、セグメンテッドジオメトリは、シミュレーション目的に使用できる品質に達するために、労働集約的な手作業の修正を必要とする。 本稿では,データの微調整によってシミュレーションに適した解剖学的精度のセグメンテーションが実現される対話型学習ステップと組み合わせ,セグメンテーションが不十分なデータセットを再利用する手法を提案する。 変形したMultiPlanar UNetを用いて、下肢関節分節と専用損失関数を併用して、ギャップ領域の学習と後処理を行い、回転不変性による対称クラス上の小さな不正確な修正を行う。 このロバストで概念的にシンプルなアプローチを, 人工股関節のctスキャンで臨床的に検証された結果に適用した。 コードと結果の3Dモデルは以下の通りである。

Accurate geometry representation is essential in developing finite element models. Although generally good, deep-learning segmentation approaches with only few data have difficulties in accurately segmenting fine features, e.g., gaps and thin structures. Subsequently, segmented geometries need labor-intensive manual modifications to reach a quality where they can be used for simulation purposes. We propose a strategy that uses transfer learning to reuse datasets with poor segmentation combined with an interactive learning step where fine-tuning of the data results in anatomically accurate segmentations suitable for simulations. We use a modified MultiPlanar UNet that is pre-trained using inferior hip joint segmentation combined with a dedicated loss function to learn the gap regions and post-processing to correct tiny inaccuracies on symmetric classes due to rotational invariance. We demonstrate this robust yet conceptually simple approach applied with clinically validated results on publicly available computed tomography scans of hip joints. Code and resulting 3D models are available at: \url{https://github.com/MICCAI2022-155/AuToSeg}
翻訳日:2022-08-18 13:22:03 公開日:2022-08-17
# 合成x線データを用いたコーンビームctによる金属人工物補正

Metal artifact correction in cone beam computed tomography using synthetic X-ray data ( http://arxiv.org/abs/2208.08288v1 )

ライセンス: Link先を確認
Harshit Agrawal, Ari Hietanen, and Simo S\"arkk\"a(参考訳) 金属加工品の補正はコーンビームCT(CBCT)スキャンにおいて難しい問題である。 解剖学に挿入された金属インプラントは、再建された画像に深刻なアーティファクトを引き起こす。 広く使われているインペインティングベースの金属アーティファクト還元(mar)法は、挑戦的なタスクである第1ステップとして、プロジェクション内の金属トレースのセグメンテーションを必要とする。 1つのアプローチは、プロジェクションに金属を分割するために深層学習法を使用することである。 しかし,ディープラーニング手法の成功は,現実的なトレーニングデータの提供によって制限される。 不明瞭なインプラント境界と多数の投影のために、信頼できる土台真理アノテーションを得ることは困難かつ時間を要する。 臨床用cbctスキャンから合成金属セグメンテーショントレーニングデータセットを生成するためのx線シミュレーションを提案する。 シミュレーションの効果を異なる光子数と比較し、利用可能なデータを増やすためのいくつかのトレーニング戦略を比較する。 我々は,本モデルの性能を従来のしきい値ベースMARと最近の深層学習法と比較した。 比較的少数の光子を持つシミュレーションは, 金属セグメンテーション作業に適しており, フルサイズおよびトリプドプロジェクションを併用したディープラーニングモデルを訓練することで, モデルの堅牢性を向上させることを示す。 重度動き, ボクセルサイズ, アンダーサンプリング, オフオブFOV金属による画像品質の向上が認められた。 提案手法は,既存のプロジェクションベースMARパイプラインに容易に実装でき,画質が向上する。 この方法はCBCT投影において金属を正確に分断する新しいパラダイムを提供することができる。

Metal artifact correction is a challenging problem in cone beam computed tomography (CBCT) scanning. Metal implants inserted into the anatomy cause severe artifacts in reconstructed images. Widely used inpainting-based metal artifact reduction (MAR) methods require segmentation of metal traces in the projections as a first step which is a challenging task. One approach is to use a deep learning method to segment metals in the projections. However, the success of deep learning methods is limited by the availability of realistic training data. It is challenging and time consuming to get reliable ground truth annotations due to unclear implant boundary and large number of projections. We propose to use X-ray simulations to generate synthetic metal segmentation training dataset from clinical CBCT scans. We compare the effect of simulations with different number of photons and also compare several training strategies to augment the available data. We compare our model's performance on real clinical scans with conventional threshold-based MAR and a recent deep learning method. We show that simulations with relatively small number of photons are suitable for the metal segmentation task and that training the deep learning model with full size and cropped projections together improves the robustness of the model. We show substantial improvement in the image quality affected by severe motion, voxel size under-sampling, and out-of-FOV metals. Our method can be easily implemented into the existing projection-based MAR pipeline to get improved image quality. This method can provide a novel paradigm to accurately segment metals in CBCT projections.
翻訳日:2022-08-18 13:21:45 公開日:2022-08-17
# 安全かつ効率的な探索マッピングと計画のためのインクリメンタルな3dシーン補完

Incremental 3D Scene Completion for Safe and Efficient Exploration Mapping and Planning ( http://arxiv.org/abs/2208.08307v1 )

ライセンス: Link先を確認
Lukas Schmid, Mansoor Nasir Cheema, Victor Reijgwart, Roland Siegwart, Federico Tombari, and Cesar Cadena(参考訳) 未知環境の探索はロボット工学の基本的な問題であり、自律システムの多くの応用において重要な要素である。 未知の環境を探索する上で大きな課題は、ロボットが各ステップで利用可能な限られた情報を計画する必要があることである。 これらの部分的な観察に基づく計画経路のヒューリスティックスと仮定に頼っている現在のアプローチでは、情報、安全、解釈可能な探索マッピングと計画に3Dシーン補完を活用することによって、深層学習を探索に統合する新たな方法を提案する。 我々のアプローチであるSC-Explorerは,新たなインクリメンタルフュージョン機構と階層型多層マッピングアプローチを併用して,ロボットの安全性と効率性を保証する。 さらに,このマッピング手法の能力を活用し,新たな情報獲得のための情報経路計画手法を提案する。 本手法は一般に適用可能であるが,マイクロエアリアル・ビークル(MAV)の使用例で評価する。 我々は,モバイルハードウェアのみを用いた忠実度シミュレーション実験において,各コンポーネントを徹底的に検討し,マップ精度を最小に抑えつつ,ベースラインと比較して73%の高速化が可能であることを示した。 最終マップにシーン完了が含まれていなくても、ロボットがより情報的な経路を選択するように誘導することができ、ロボットのセンサーでシーンの測定を35%高速化することができる。 メソッドをオープンソースとして公開しています。

Exploration of unknown environments is a fundamental problem in robotics and an essential component in numerous applications of autonomous systems. A major challenge in exploring unknown environments is that the robot has to plan with the limited information available at each time step. While most current approaches rely on heuristics and assumption to plan paths based on these partial observations, we instead propose a novel way to integrate deep learning into exploration by leveraging 3D scene completion for informed, safe, and interpretable exploration mapping and planning. Our approach, SC-Explorer, combines scene completion using a novel incremental fusion mechanism and a newly proposed hierarchical multi-layer mapping approach, to guarantee safety and efficiency of the robot. We further present an informative path planning method, leveraging the capabilities of our mapping approach and a novel scene-completion-aware information gain. While our method is generally applicable, we evaluate it in the use case of a Micro Aerial Vehicle (MAV). We thoroughly study each component in high-fidelity simulation experiments using only mobile hardware, and show that our method can speed up coverage of an environment by 73% compared to the baselines with only minimal reduction in map accuracy. Even if scene completions are not included in the final map, we show that they can be used to guide the robot to choose more informative paths, speeding up the measurement of the scene with the robot's sensors by 35%. We make our methods available as open-source.
翻訳日:2022-08-18 13:21:23 公開日:2022-08-17
# Video-TransUNet:CT VFSSインスタンスセグメンテーションのための一時的に曲げられた視覚変換器

Video-TransUNet: Temporally Blended Vision Transformer for CT VFSS Instance Segmentation ( http://arxiv.org/abs/2208.08315v1 )

ライセンス: Link先を確認
Chengxi Zeng, Xinyu Yang, Majid Mirmehdi, Alberto M Gambaruto and Tilo Burghardt(参考訳) 本稿では,TransUNetの深層学習フレームワークに時間的特徴ブレンドを組み込んだ医療用CTビデオの深層構造であるVideo-TransUNetを提案する。 特に,resnet cnnバックボーンによる強固なフレーム表現,時間的コンテキストモジュール(tcm)によるマルチフレーム特徴のブレンド,視覚トランスフォーマによる非局所的注意,unetベースの畳み込み・デコンボリューションアーキテクチャによる複数ターゲットの再構成機能などと融合する。 VFSS(Vofluoroscopic Swallowing Study)CTにおける骨と咽頭の分画試験において,この新しいネットワーク設計は,他の最先端システムよりも有意に優れていることを示す。 私たちのvfss2022データセットでは、サイス係数0.8796\%$、平均表面距離1.0379$ピクセルを達成しています。 咽頭骨の追跡は, 摂食障害の診断における主要な方法であるため, 臨床実践において特に重要である。 提案手法は, 時間的情報を活用し, セグメンテーション性能を著しく向上させることにより, TransUNet アーキテクチャを拡張できることが示唆された。 キーとなるソースコード、ネットワーク重み付け、グラウンド・真理アノテーションを公開し、パフォーマンスの再現を簡略化します。

We propose Video-TransUNet, a deep architecture for instance segmentation in medical CT videos constructed by integrating temporal feature blending into the TransUNet deep learning framework. In particular, our approach amalgamates strong frame representation via a ResNet CNN backbone, multi-frame feature blending via a Temporal Context Module (TCM), non-local attention via a Vision Transformer, and reconstructive capabilities for multiple targets via a UNet-based convolutional-deconvolutional architecture with multiple heads. We show that this new network design can significantly outperform other state-of-the-art systems when tested on the segmentation of bolus and pharynx/larynx in Videofluoroscopic Swallowing Study (VFSS) CT sequences. On our VFSS2022 dataset it achieves a dice coefficient of $0.8796\%$ and an average surface distance of $1.0379$ pixels. Note that tracking the pharyngeal bolus accurately is a particularly important application in clinical practice since it constitutes the primary method for diagnostics of swallowing impairment. Our findings suggest that the proposed model can indeed enhance the TransUNet architecture via exploiting temporal information and improving segmentation performance by a significant margin. We publish key source code, network weights, and ground truth annotations for simplified performance reproduction.
翻訳日:2022-08-18 13:20:57 公開日:2022-08-17
# 3次元幾何学的一貫性を用いた腹腔鏡画像の自己監督深度推定

Self-Supervised Depth Estimation in Laparoscopic Image using 3D Geometric Consistency ( http://arxiv.org/abs/2208.08407v1 )

ライセンス: Link先を確認
Baoru Huang, Jian-Qing Zheng, Anh Nguyen, Chi Xu, Ioannis Gkouzionis, Kunal Vyas, David Tuch, Stamatia Giannarou, Daniel S. Elson(参考訳) 深度推定は、ロボット手術と腹腔鏡画像システムにおける画像誘導的介入の重要なステップである。 腹腔鏡画像データでは1ピクセルあたりの深度グラウンド真理の取得が困難であるため,外科的応用に監督深度推定を適用することは稀である。 代替として、ステレオ画像ペアのみを用いて深度推定器を訓練するための自己教師方式が導入された。 しかし、最近の研究は2dにおける左右の一貫性に焦点を当てており、現実世界の座標における物体の貴重な内在的な3d情報を無視している。 この制限を克服するために,立体対に隠された3次元幾何学的構造情報を利用する自己教師型深度推定器M3Depthを提案する。 また、マスクによるステレオ画像の少なくとも1つに見当たらない境界領域の影響を除去し、重なり合い領域における左右画像間の対応性を高める。 集中的な実験により,提案手法は,公開データセットと新たに取得したデータセットの両方において,従来の自己教師ありアプローチを大きなマージンで上回り,異なるサンプルと腹腔鏡をまたいだ良好な一般化が示された。

Depth estimation is a crucial step for image-guided intervention in robotic surgery and laparoscopic imaging system. Since per-pixel depth ground truth is difficult to acquire for laparoscopic image data, it is rarely possible to apply supervised depth estimation to surgical applications. As an alternative, self-supervised methods have been introduced to train depth estimators using only synchronized stereo image pairs. However, most recent work focused on the left-right consistency in 2D and ignored valuable inherent 3D information on the object in real world coordinates, meaning that the left-right 3D geometric structural consistency is not fully utilized. To overcome this limitation, we present M3Depth, a self-supervised depth estimator to leverage 3D geometric structural information hidden in stereo pairs while keeping monocular inference. The method also removes the influence of border regions unseen in at least one of the stereo images via masking, to enhance the correspondences between left and right images in overlapping areas. Intensive experiments show that our method outperforms previous self-supervised approaches on both a public dataset and a newly acquired dataset by a large margin, indicating a good generalization across different samples and laparoscopes.
翻訳日:2022-08-18 13:20:32 公開日:2022-08-17
# 知識グラフのキュレーション - 実践的なフレームワーク

Knowledge Graph Curation: A Practical Framework ( http://arxiv.org/abs/2208.08130v1 )

ライセンス: Link先を確認
Elwin Huaman and Dieter Fensel(参考訳) 知識グラフ(KG)は、パーソナルアシスタント、質問応答システム、検索エンジンなどのアプリケーションにとって非常に重要である。 そのため、高い品質を確保することが重要である。 しかし、kgには必然的にエラーや重複、価値の欠如が含まれており、例えば低品質のkgはそれらの上に構築された低品質のアプリケーションを生成するため、ビジネスアプリケーションへの採用や有用性を阻害する可能性がある。 本稿では,kgsの品質向上のための実践的知識グラフキュレーションフレームワークを提案する。 まず,kgsの状態を評価するための一連の品質指標を定義し,第2に,kgsの検証と検証をクリーニングタスクとして記述し,第3に,重複検出と知識融合戦略を提案する。 さらに、KGsをキュレートするためのより良いアーキテクチャに向けた洞察と方向性を提供する。

Knowledge Graphs (KGs) have shown to be very important for applications such as personal assistants, question-answering systems, and search engines. Therefore, it is crucial to ensure their high quality. However, KGs inevitably contain errors, duplicates, and missing values, which may hinder their adoption and utility in business applications, as they are not curated, e.g., low-quality KGs produce low-quality applications that are built on top of them. In this vision paper, we propose a practical knowledge graph curation framework for improving the quality of KGs. First, we define a set of quality metrics for assessing the status of KGs, Second, we describe the verification and validation of KGs as cleaning tasks, Third, we present duplicate detection and knowledge fusion strategies for enriching KGs. Furthermore, we give insights and directions toward a better architecture for curating KGs.
翻訳日:2022-08-18 13:20:09 公開日:2022-08-17
# 意味コミュニケーションのパフォーマンス最適化:注意に基づく強化学習アプローチ

Performance Optimization for Semantic Communications: An Attention-based Reinforcement Learning Approach ( http://arxiv.org/abs/2208.08239v1 )

ライセンス: Link先を確認
Yining Wang, Mingzhe Chen, Tao Luo, Walid Saad, Dusit Niyato, H. Vincent Poor, Shuguang Cui(参考訳) 本稿では,テキストデータ伝送のための意味コミュニケーションフレームワークを提案する。 研究モデルでは、ベースステーション(BS)がテキストデータから意味情報を抽出し、各ユーザに送信する。 意味情報は、セマンティック・トリプルの集合からなる知識グラフ(KG)によってモデル化される。 意味情報を受信した後、各ユーザはグラフ・ツー・テキスト生成モデルを用いて元のテキストを復元する。 考察された意味的コミュニケーションフレームワークの性能を測定するため,回復したテキストの意味的精度と完全性を共同でキャプチャする意味的類似度尺度(MSS)を提案する。 無線リソースの制限のため、BSは各ユーザに対して意味情報を全て送信することができず、送信遅延制約を満たすことができる。 したがって、bsは、ユーザ毎に適切なリソースブロックを選択し、その意味情報の一部をユーザに決定して送信する必要がある。 そこで,資源割り当てポリシを最適化し,送信する部分的意味情報を決定することで,MSS全体の最大化を目標とする最適化問題を定式化する。 この問題を解決するために,注意ネットワークと統合した近位最適化に基づく強化学習(rl)アルゴリズムを提案する。 提案アルゴリズムは、注意ネットワークを用いて意味情報における各三重項の重要性を評価し、その意味情報における三重項の重要性分布と総MSSとの関係を構築する。 従来のRLアルゴリズムと比較して,提案アルゴリズムは学習率を動的に調整し,局所最適解への収束を保証する。

In this paper, a semantic communication framework is proposed for textual data transmission. In the studied model, a base station (BS) extracts the semantic information from textual data, and transmits it to each user. The semantic information is modeled by a knowledge graph (KG) that consists of a set of semantic triples. After receiving the semantic information, each user recovers the original text using a graph-to-text generation model. To measure the performance of the considered semantic communication framework, a metric of semantic similarity (MSS) that jointly captures the semantic accuracy and completeness of the recovered text is proposed. Due to wireless resource limitations, the BS may not be able to transmit the entire semantic information to each user and satisfy the transmission delay constraint. Hence, the BS must select an appropriate resource block for each user as well as determine and transmit part of the semantic information to the users. As such, we formulate an optimization problem whose goal is to maximize the total MSS by jointly optimizing the resource allocation policy and determining the partial semantic information to be transmitted. To solve this problem, a proximal-policy-optimization-based reinforcement learning (RL) algorithm integrated with an attention network is proposed. The proposed algorithm can evaluate the importance of each triple in the semantic information using an attention network and then, build a relationship between the importance distribution of the triples in the semantic information and the total MSS. Compared to traditional RL algorithms, the proposed algorithm can dynamically adjust its learning rate thus ensuring convergence to a locally optimal solution.
翻訳日:2022-08-18 13:19:55 公開日:2022-08-17
# サイバー物理システムセキュリティのためのデータセットの要素について

On the Elements of Datasets for Cyber Physical Systems Security ( http://arxiv.org/abs/2208.08255v1 )

ライセンス: Link先を確認
Ashraf Tantawy(参考訳) AIアルゴリズムをサイバー物理システム(CPS)セキュリティに適用するには、データセットが不可欠である。 実際のCPSデータセットが不足しているため、研究者は、実または仮想化されたテストベッドを使用して、独自のデータセットを生成することを選択した。 しかし、他のAIドメインとは異なり、CPSは、その振る舞いを決定する多くのインターフェースを持つ複雑なシステムである。 センサーの計測とネットワークトラフィックの集まりだけからなるデータセットは、回復力のあるai防御または攻撃的なエージェントを開発するのに十分ではないかもしれない。 本稿では,システム動作とインタラクションをキャプチャするために必要なCPSセキュリティデータセットのemph{elements}を調査し,サイバー物理システムを保護する上でAIアルゴリズムの性能を高める可能性を持つデータセットアーキテクチャを提案する。 フレームワークには、データセット要素、アタック表現、必要なデータセット機能が含まれている。 既存のデータセットと提案アーキテクチャを比較して、現在の制限を特定し、テストベッドを用いたCPSデータセット生成の将来について論じる。

Datasets are essential to apply AI algorithms to Cyber Physical System (CPS) Security. Due to scarcity of real CPS datasets, researchers elected to generate their own datasets using either real or virtualized testbeds. However, unlike other AI domains, a CPS is a complex system with many interfaces that determine its behavior. A dataset that comprises merely a collection of sensor measurements and network traffic may not be sufficient to develop resilient AI defensive or offensive agents. In this paper, we study the \emph{elements} of CPS security datasets required to capture the system behavior and interactions, and propose a dataset architecture that has the potential to enhance the performance of AI algorithms in securing cyber physical systems. The framework includes dataset elements, attack representation, and required dataset features. We compare existing datasets to the proposed architecture to identify the current limitations and discuss the future of CPS dataset generation using testbeds.
翻訳日:2022-08-18 13:19:32 公開日:2022-08-17
# マルウェアパッキング同定のための効率的なマルチステップフレームワーク

An Efficient Multi-Step Framework for Malware Packing Identification ( http://arxiv.org/abs/2208.08071v1 )

ライセンス: Link先を確認
Jong-Wouk Kim, Yang-Sae Moon, Mi-Jung Choi(参考訳) マルウェア開発者は、圧縮、暗号化、難読化といった技術を組み合わせてアンチウイルスソフトウェアをバイパスする。 アンチアナリシス技術を持つマルウェアは、AIベースのアンチウイルスソフトウェアやマルウェア分析ツールをバイパスすることができる。 したがって、パックファイルの分類は大きな課題の1つだ。 マルウェア分類器が、マルウェアではなくパッカーの機能を学ぶと問題が発生する。 意図しない誤ったデータによるモデルのトレーニングは、毒攻撃、敵攻撃、回避攻撃に変わる。 したがって、研究者は適切なマルウェア分類モデルを構築するためにパッキングを検討する必要がある。 本稿では,擬似最適特徴選択,機械学習に基づく分類,およびパッカー識別ステップからなる包括サンプルの分類と識別を行う多段階フレームワークを提案する。 最初のステップでは、CARTアルゴリズムと置換重要度を用いて、重要な20の機能をプリセレクトする。 第2ステップでは、各モデルが、満載ファイルを最高のパフォーマンスで分類するための20の事前選択された特徴を学習する。 その結果、XGBoostはXGBoostが選択した特徴と置換の重要性を学習し、99.67%の精度、F1スコア99.46%の精度、曲線(AUC)の面積99.98%の他の実験シナリオの中で最も高い性能を示した。 第3のステップでは、Well-Known Packedに分類されるサンプルのみにパッカーを識別できる新しいアプローチを提案する。

Malware developers use combinations of techniques such as compression, encryption, and obfuscation to bypass anti-virus software. Malware with anti-analysis technologies can bypass AI-based anti-virus software and malware analysis tools. Therefore, classifying pack files is one of the big challenges. Problems arise if the malware classifiers learn packers' features, not those of malware. Training the models with unintended erroneous data turn into poisoning attacks, adversarial attacks, and evasion attacks. Therefore, researchers should consider packing to build appropriate malware classifier models. In this paper, we propose a multi-step framework for classifying and identifying packed samples which consists of pseudo-optimal feature selection, machine learning-based classifiers, and packer identification steps. In the first step, we use the CART algorithm and the permutation importance to preselect important 20 features. In the second step, each model learns 20 preselected features for classifying the packed files with the highest performance. As a result, the XGBoost, which learned the features preselected by XGBoost with the permutation importance, showed the highest performance of any other experiment scenarios with an accuracy of 99.67%, an F1-Score of 99.46%, and an area under the curve (AUC) of 99.98%. In the third step, we propose a new approach that can identify packers only for samples classified as Well-Known Packed.
翻訳日:2022-08-18 13:16:57 公開日:2022-08-17
# CommitBART: GitHub Commit用の大規模な事前トレーニングモデル

CommitBART: A Large Pre-trained Model for GitHub Commits ( http://arxiv.org/abs/2208.08100v1 )

ライセンス: Link先を確認
Shangqing Liu and Yanzhou Li and Yang Liu(参考訳) コード変更を自然言語メッセージで記述して記録するGitHubのコミットは、ソフトウェア開発者のソフトウェア進化を理解する上で重要な役割を果たす。 オープンソースソフトウェアコミュニティの発展を促進するため、7つのプログラミング言語で7900万以上のコミットを含むコミットベンチマークを収集しました。 このベンチマークに基づいて、GitHubコミットのための大規模なトレーニング済みエンコーダデコーダトランスフォーマーモデルであるCommitBARTを紹介する。 このモデルは、コミットフラグメントの表現を学ぶために、6つの事前トレーニングタスクのために、3つのカテゴリ(目標の推論、クロスモーダル生成、コントラスト学習)で事前学習される。 さらに、「コミットインテリジェンス」フレームワークを1つの理解タスクと3つの世代タスクで統合する。 これらのタスクに関する包括的な実験は、CommitBARTが以前のトレーニング済みのコードよりも大幅に優れていることを示している。 さらに分析により、各事前学習タスクがモデル性能を向上させることも明らかにされる。 フォローアップ研究者は将来、よりコミット関連の下流タスクをフレームワークにコントリビュートすることを推奨します。

GitHub commits, which record the code changes with natural language messages for description, play a critical role for software developers to comprehend the software evolution. To promote the development of the open-source software community, we collect a commit benchmark including over 7.99 million commits across 7 programming languages. Based on this benchmark, we present CommitBART, a large pre-trained encoder-decoder Transformer model for GitHub commits. The model is pre-trained by three categories (i.e., denoising objectives, cross-modal generation and contrastive learning) for six pre-training tasks to learn commit fragment representations. Furthermore, we unify a "commit intelligence" framework with one understanding task and three generation tasks for commits. The comprehensive experiments on these tasks demonstrate that CommitBART significantly outperforms previous pre-trained works for code. Further analysis also reveals each pre-training task enhances the model performance. We encourage the follow-up researchers to contribute more commit-related downstream tasks to our framework in the future.
翻訳日:2022-08-18 13:16:35 公開日:2022-08-17
# 表データ合成モデルに対するメンバーシップ推論攻撃に関する実証的研究

An Empirical Study on the Membership Inference Attack against Tabular Data Synthesis Models ( http://arxiv.org/abs/2208.08114v1 )

ライセンス: Link先を確認
Jihyeon Hyeong, Jayoung Kim, Noseong Park, Sushil Jajodia(参考訳) 表データは通常、プライベートな情報や重要な情報を含むので、他の人と共有する前に予防措置を講じなければならない。 情報漏洩を防止するためにいくつかの方法(差分プライバシやk匿名性など)が提案されているが、近年ではデータユーティリティとプライバシのトレードオフが良好であるため、表データ合成モデルが普及している。 しかし、近年の研究では、画像データの生成モデルがメンバーシップ推論攻撃の影響を受けやすいことが示されており、それによって、特定のレコードが被害者合成モデルのトレーニングに使用されたかどうかを判断することができる。 本稿では,表データ合成におけるメンバシップ推論攻撃について検討する。 2つの攻撃シナリオ(ブラックボックス1つとホワイトボックス1つ)の下で4つの最先端の表層データ合成モデルの実験を行い、メンバーシップ推論攻撃がこれらのモデルを深刻な危険に晒すことを発見した。 次に,DP-SGD と DP-GAN という2つの一般的なディープラーニング学習アルゴリズムが,攻撃からモデルを守ることができるかを評価する。 私たちの重要な発見は、両方のアルゴリズムが生成品質を犠牲にすることで、この脅威を大幅に軽減できるということです。 コードとデータは以下のとおり。 https://github.com/jayoungkim408/mia

Tabular data typically contains private and important information; thus, precautions must be taken before they are shared with others. Although several methods (e.g., differential privacy and k-anonymity) have been proposed to prevent information leakage, in recent years, tabular data synthesis models have become popular because they can well trade-off between data utility and privacy. However, recent research has shown that generative models for image data are susceptible to the membership inference attack, which can determine whether a given record was used to train a victim synthesis model. In this paper, we investigate the membership inference attack in the context of tabular data synthesis. We conduct experiments on 4 state-of-the-art tabular data synthesis models under two attack scenarios (i.e., one black-box and one white-box attack), and find that the membership inference attack can seriously jeopardize these models. We next conduct experiments to evaluate how well two popular differentially-private deep learning training algorithms, DP-SGD and DP-GAN, can protect the models against the attack. Our key finding is that both algorithms can largely alleviate this threat by sacrificing the generation quality. Code and data available at: https://github.com/JayoungKim408/MIA
翻訳日:2022-08-18 13:16:16 公開日:2022-08-17
# 強化学習による清掃ロボットの経路計画

Path Planning of Cleaning Robot with Reinforcement Learning ( http://arxiv.org/abs/2208.08211v1 )

ライセンス: Link先を確認
Woohyeon Moon, Bumgeun Park, Sarvar Hussain Nengroo, Taeyoung Kim, and Dongsoo Har(参考訳) 近年、掃除ロボットの需要が着実に増加し、家庭用電力消費も増加している。 この電力消費問題を解決するために,掃除ロボットの効率的な経路計画の課題が重要となり,多くの研究が行われている。 しかし、そのほとんどは、すべての場所をきれいにするための経路全体ではなく、単純な経路セグメントに沿って移動することです。 深層学習技術として,ロボットの清掃に強化学習(RL)を採用している。 しかし、RLのモデルは、様々なクリーニング環境ではなく、特定のクリーニング環境でのみ動作する。 問題は、モデルがクリーニング環境が変わるたびに再トレーニングしなければならないことです。 この問題を解決するために、近位政策最適化(ppo)アルゴリズムは、転送学習(tl)、最寄りのクリーニングタイルの検出、報奨整形、エリートセット法の作成など、様々なクリーニング環境で動作する効率的な経路計画と組み合わせる。 提案法をアブレーション実験で検証し,ランダム法やジグザグ法など従来の方法と比較した。 実験の結果,提案手法はトレーニング性能の向上とPPOの収束速度の向上を実現している。 また,提案手法は従来の手法 (random, zigzag) よりも優れた性能を示す。

Recently, as the demand for cleaning robots has steadily increased, therefore household electricity consumption is also increasing. To solve this electricity consumption issue, the problem of efficient path planning for cleaning robot has become important and many studies have been conducted. However, most of them are about moving along a simple path segment, not about the whole path to clean all places. As the emerging deep learning technique, reinforcement learning (RL) has been adopted for cleaning robot. However, the models for RL operate only in a specific cleaning environment, not the various cleaning environment. The problem is that the models have to retrain whenever the cleaning environment changes. To solve this problem, the proximal policy optimization (PPO) algorithm is combined with an efficient path planning that operates in various cleaning environments, using transfer learning (TL), detection nearest cleaned tile, reward shaping, and making elite set methods. The proposed method is validated with an ablation study and comparison with conventional methods such as random and zigzag. The experimental results demonstrate that the proposed method achieves improved training performance and increased convergence speed over the original PPO. And it also demonstrates that this proposed method is better performance than conventional methods (random, zigzag).
翻訳日:2022-08-18 13:15:53 公開日:2022-08-17
# 会話型短文話者ダイアリゼーション(cssd)タスク:データセット、評価基準、ベースライン

The Conversational Short-phrase Speaker Diarization (CSSD) Task: Dataset, Evaluation Metric and Baselines ( http://arxiv.org/abs/2208.08042v1 )

ライセンス: Link先を確認
Gaofeng Cheng, Yifan Chen, Runyan Yang, Qingxuan Li, Zehui Yang, Lingxuan Ye, Pengyuan Zhang, Qingqing Zhang, Lei Xie, Yanmin Qian, Kong Aik Lee, Yonghong Yan(参考訳) 会話シナリオは、会話中の人々がカジュアルなスタイルで互いに反応するため、音声処理技術にとって最も重要かつ最も困難なシナリオの1つです。 会話中の各人の音声活動を検出することは、自然言語処理や機械翻訳などの下流タスクにとって不可欠である。 人々は"who speak when"の検出技術を話者ダイアリゼーション(sd)と呼ぶ。 伝統的に、ダイアリゼーションエラーレート(der)はsdシステムの標準評価基準として長い間用いられてきた。 しかし、DERは、意味レベルでは短いが重要な、会話の短いフレーズに対して十分な重要性を与えていない。 また、音声コミュニティでは、会話型sd技術を評価するのに適した、慎重に、正確に手動でテストデータセットが利用できない。 本稿では、データセットのトレーニングとテスト、評価基準、ベースラインからなる会話短文話者ダイアリゼーション(CSSD)タスクを設計し、記述する。 データセットに関しては、これまで180時間の会話型magicdata-ramcデータセットをオープンソースとして公開していたが、cssdタスクにアノテーションをタイムスタンプして、注意深く、かつ人工的に検証した20時間の会話型音声テストデータセットを作成する。 距離の面では,発話レベルでのSD精度を算出する新しい対話型DER (CDER) 評価指標を設計する。 ベースラインの面では、cssdタスクのベースラインとして、変分ベイズhmm x-vectorシステムという一般的な方法を採用しています。 評価基準はhttps://github.com/speechclub/cder_metricで公開しています。

The conversation scenario is one of the most important and most challenging scenarios for speech processing technologies because people in conversation respond to each other in a casual style. Detecting the speech activities of each person in a conversation is vital to downstream tasks, like natural language processing, machine translation, etc. People refer to the detection technology of "who speak when" as speaker diarization (SD). Traditionally, diarization error rate (DER) has been used as the standard evaluation metric of SD systems for a long time. However, DER fails to give enough importance to short conversational phrases, which are short but important on the semantic level. Also, a carefully and accurately manually-annotated testing dataset suitable for evaluating the conversational SD technologies is still unavailable in the speech community. In this paper, we design and describe the Conversational Short-phrases Speaker Diarization (CSSD) task, which consists of training and testing datasets, evaluation metric and baselines. In the dataset aspect, despite the previously open-sourced 180-hour conversational MagicData-RAMC dataset, we prepare an individual 20-hour conversational speech test dataset with carefully and artificially verified speakers timestamps annotations for the CSSD task. In the metric aspect, we design the new conversational DER (CDER) evaluation metric, which calculates the SD accuracy at the utterance level. In the baseline aspect, we adopt a commonly used method: Variational Bayes HMM x-vector system, as the baseline of the CSSD task. Our evaluation metric is publicly available at https://github.com/SpeechClub/CDER_Metric.
翻訳日:2022-08-18 13:15:34 公開日:2022-08-17
# リアルタイム3Dセル解析が可能なディープラーニング

Deep Learning Enabled Time-Lapse 3D Cell Analysis ( http://arxiv.org/abs/2208.07997v1 )

ライセンス: Link先を確認
Jiaxiang Jiang, Amil Khan, S.Shailja, Samuel A. Belteton, Michael Goebel, Daniel B. Szymanski, and B.S. Manjunath(参考訳) 本稿ではタイムラプス3Dセル解析手法を提案する。 具体的には,サブセルの特徴を正確に局所化し,定量的に解析し,時間経過3次元共焦点像スタックから個々の細胞を追跡する問題を考える。 細胞の不均一性と多次元画像の体積は、細胞の形態形成と発生を完全に自動解析する上で大きな課題となる。 本論文は, 舗装細胞の増殖過程を動機とし, 定量的形態形成モデルを構築した。 本稿では,各細胞領域を正確に検出しラベル付けする深部特徴量に基づくセグメンテーション法を提案する。 隣接グラフに基づく方法を用いて、セグメント化された細胞のサブセル特徴を抽出する。 最後に、複数のセル特徴を用いた頑健なグラフベースの追跡アルゴリズムを提案し、異なる時刻のセルに関連付ける。 提案手法の強靭性を実証し, 実験結果について述べる。 コードはgithubで入手でき、このメソッドはbisqueポータルを通じてサービスとして利用できる。

This paper presents a method for time-lapse 3D cell analysis. Specifically, we consider the problem of accurately localizing and quantitatively analyzing sub-cellular features, and for tracking individual cells from time-lapse 3D confocal cell image stacks. The heterogeneity of cells and the volume of multi-dimensional images presents a major challenge for fully automated analysis of morphogenesis and development of cells. This paper is motivated by the pavement cell growth process, and building a quantitative morphogenesis model. We propose a deep feature based segmentation method to accurately detect and label each cell region. An adjacency graph based method is used to extract sub-cellular features of the segmented cells. Finally, the robust graph based tracking algorithm using multiple cell features is proposed for associating cells at different time instances. Extensive experiment results are provided and demonstrate the robustness of the proposed method. The code is available on Github and the method is available as a service through the BisQue portal.
翻訳日:2022-08-18 13:14:50 公開日:2022-08-17
# regas:single 3d cbctによる多相cbct再構成の視点の呼吸制御合成

REGAS: REspiratory-GAted Synthesis of Views for Multi-Phase CBCT Reconstruction from a single 3D CBCT Acquisition ( http://arxiv.org/abs/2208.08048v1 )

ライセンス: Link先を確認
Cheng Peng, Haofu Liao, S. Kevin Zhou, Rama Chellappa(参考訳) 呼吸運動下肺のCone Beam Computed Tomography(CBCT)の再建は,長年にわたる課題である。 この研究はさらに一歩進んで、単一の3d cbct取得から多相4d肺画像を再構築する難しい状況に対処します。 そこで我々は,Repiratory-GAted Synthesis of view(REGAS)を紹介する。 REGASは、アンダーサンプルトモグラフィビューを合成し、再構成画像中のアーティファクトを緩和する自己教師方式を提案する。 本手法は, 直接観測から再現品質を高めるために用いられる, 相間変形ベクトル場(DVF)のより優れた推定を可能にする。 高解像度4Dデータ上でのディープニューラルネットワークの大規模なメモリコストに対処するため、REGASは分散して微分可能なフォワードプロジェクションを可能にする新しいレイパス変換(RPT)を導入した。 REGASは、事前スキャン、気流量、呼吸速度などの追加測定を必要としない。 我々の広範な実験により、REGASは定量的メトリクスと視覚的品質において、同等の手法を著しく上回っていることが示された。

It is a long-standing challenge to reconstruct Cone Beam Computed Tomography (CBCT) of the lung under respiratory motion. This work takes a step further to address a challenging setting in reconstructing a multi-phase}4D lung image from just a single}3D CBCT acquisition. To this end, we introduce REpiratory-GAted Synthesis of views, or REGAS. REGAS proposes a self-supervised method to synthesize the undersampled tomographic views and mitigate aliasing artifacts in reconstructed images. This method allows a much better estimation of between-phase Deformation Vector Fields (DVFs), which are used to enhance reconstruction quality from direct observations without synthesis. To address the large memory cost of deep neural networks on high resolution 4D data, REGAS introduces a novel Ray Path Transformation (RPT) that allows for distributed, differentiable forward projections. REGAS require no additional measurements like prior scans, air-flow volume, or breathing velocity. Our extensive experiments show that REGAS significantly outperforms comparable methods in quantitative metrics and visual quality.
翻訳日:2022-08-18 13:14:37 公開日:2022-08-17
# 3dポイントクラウドにおけるインセプタブルでロバストなバックドア攻撃

Imperceptible and Robust Backdoor Attack in 3D Point Cloud ( http://arxiv.org/abs/2208.08052v1 )

ライセンス: Link先を確認
Kuofeng Gao, Jiawang Bai, Baoyuan Wu, Mengxi Ya, Shu-Tao Xia(参考訳) ポイントクラウドデータの処理におけるディープラーニングの進歩により、最近の研究は、バックドア攻撃が3Dビジョンアプリケーションに深刻なセキュリティ脅威をもたらすことを示している。 攻撃者は、いくつかのトレーニングサンプルにトリガーを注入することで、バックドアを3dモデルに注入する。 既存の攻撃では、トリガーとして点雲にいくつかの追加点を挿入したり、あるいは線形変換(例えば回転)を用いて毒点雲を構築することがある。 しかし、これらの有毒試料の効果は3次元点雲の前処理技術(例えば、外周除去や回転増強など)によって弱まるか、あるいは除去される可能性がある。 本稿では,この課題に取り組むために,irba(imperceptible and robust backdoor attack)を提案する。 重み付き局所変換 (wlt) と呼ばれる非線形および局所変換を用いて, 有毒な試料を一意な変換で構成する。 WLTにはいくつかのハイパーパラメータとランダム性があるため、2つの類似した変換を生成することは困難である。 その結果、ユニークな変換を持つ有毒な試料は、前述の前処理技術に耐性があると考えられる。 また, 固定されたWLTによる歪みの抑制性や滑らかさから, 生成した有毒試料も人体検査には受容できない。 3つのベンチマークデータセットと4つのモデルに対する大規模な実験は、IRBAが前処理技術でも80%以上のASRを達成することを示した。

With the thriving of deep learning in processing point cloud data, recent works show that backdoor attacks pose a severe security threat to 3D vision applications. The attacker injects the backdoor into the 3D model by poisoning a few training samples with trigger, such that the backdoored model performs well on clean samples but behaves maliciously when the trigger pattern appears. Existing attacks often insert some additional points into the point cloud as the trigger, or utilize a linear transformation (e.g., rotation) to construct the poisoned point cloud. However, the effects of these poisoned samples are likely to be weakened or even eliminated by some commonly used pre-processing techniques for 3D point cloud, e.g., outlier removal or rotation augmentation. In this paper, we propose a novel imperceptible and robust backdoor attack (IRBA) to tackle this challenge. We utilize a nonlinear and local transformation, called weighted local transformation (WLT), to construct poisoned samples with unique transformations. As there are several hyper-parameters and randomness in WLT, it is difficult to produce two similar transformations. Consequently, poisoned samples with unique transformations are likely to be resistant to aforementioned pre-processing techniques. Besides, as the controllability and smoothness of the distortion caused by a fixed WLT, the generated poisoned samples are also imperceptible to human inspection. Extensive experiments on three benchmark datasets and four models show that IRBA achieves 80%+ ASR in most cases even with pre-processing techniques, which is significantly higher than previous state-of-the-art attacks.
翻訳日:2022-08-18 13:14:16 公開日:2022-08-17
# プログレッシブクロスモーダル知識蒸留による人間行動認識

Progressive Cross-modal Knowledge Distillation for Human Action Recognition ( http://arxiv.org/abs/2208.08090v1 )

ライセンス: Link先を確認
Jianyuan Ni, Anne H.H. Ngu, Yan Yan(参考訳) ウェアラブルセンサベースのヒューマンアクション認識(har)は近年、大きな成功を収めている。 しかし、ウェアラブルセンサーベースのHARの精度は、視覚的モダリティベースのシステム(RGBビデオ、スケルトン、深さなど)にはまだ及ばない。 多様な入力モダリティは相補的な手がかりを提供することができ、したがってHARの精度を向上させることができるが、ウェアラブルセンサベースのHARのマルチモーダルデータを利用する方法はほとんど研究されていない。 現在、ウェアラブルデバイス、すなわちスマートウォッチは、限られた種類の非視覚モダリティデータしかキャプチャできない。 これは、視覚的および非視覚的モダリティデータの両方を同時に使用できないため、マルチモーダルHARアソシエーションを妨げる。 もうひとつの大きな課題は、限られた計算リソースでウェアラブルデバイス上のマルチモーダルデータを効率的に活用する方法だ。 本研究では,ウェアラブルセンサを用いたHAR問題を解決するためのスマートウォッチから,時系列データ,すなわち加速度センサデータのみを利用する新しいプログレッシブ・骨格-感覚知識蒸留(PSKD)モデルを提案する。 具体的には,教師(人間の骨格配列)と学生(時系列加速度計データ)の両方のデータを用いて,複数の教師モデルを構築した。 また,教師と生徒のモデル間のパフォーマンスギャップを解消する効果的なプログレッシブ・ラーニング手法を提案する。 また,適応信頼セマンティック(ACS:Adaptive-Confidence Semantic)と呼ばれる新しい損失関数を設計し,学生モデルに対して,模擬が必要な教師モデルまたは地上構造ラベルのいずれかを適応的に選択できるようにする。 提案手法の有効性を実証するため, バークレー・MHAD, UTD-MHAD, MMActデータセットについて広範な実験を行った。 その結果,PSKD法は従来のモノセンサを用いたHAR法と比較して競合性能が高いことを確認した。

Wearable sensor-based Human Action Recognition (HAR) has achieved remarkable success recently. However, the accuracy performance of wearable sensor-based HAR is still far behind the ones from the visual modalities-based system (i.e., RGB video, skeleton, and depth). Diverse input modalities can provide complementary cues and thus improve the accuracy performance of HAR, but how to take advantage of multi-modal data on wearable sensor-based HAR has rarely been explored. Currently, wearable devices, i.e., smartwatches, can only capture limited kinds of non-visual modality data. This hinders the multi-modal HAR association as it is unable to simultaneously use both visual and non-visual modality data. Another major challenge lies in how to efficiently utilize multimodal data on wearable devices with their limited computation resources. In this work, we propose a novel Progressive Skeleton-to-sensor Knowledge Distillation (PSKD) model which utilizes only time-series data, i.e., accelerometer data, from a smartwatch for solving the wearable sensor-based HAR problem. Specifically, we construct multiple teacher models using data from both teacher (human skeleton sequence) and student (time-series accelerometer data) modalities. In addition, we propose an effective progressive learning scheme to eliminate the performance gap between teacher and student models. We also designed a novel loss function called Adaptive-Confidence Semantic (ACS), to allow the student model to adaptively select either one of the teacher models or the ground-truth label it needs to mimic. To demonstrate the effectiveness of our proposed PSKD method, we conduct extensive experiments on Berkeley-MHAD, UTD-MHAD, and MMAct datasets. The results confirm that the proposed PSKD method has competitive performance compared to the previous mono sensor-based HAR methods.
翻訳日:2022-08-18 13:13:49 公開日:2022-08-17
# MoCapDeform:変形可能なシーンにおける単眼の3Dモーションキャプチャ

MoCapDeform: Monocular 3D Human Motion Capture in Deformable Scenes ( http://arxiv.org/abs/2208.08439v1 )

ライセンス: Link先を確認
Zhi Li and Soshi Shimada and Bernt Schiele and Christian Theobalt and Vladislav Golyanik(参考訳) 複雑な、おそらく変形可能な環境との相互作用を尊重する単眼のrgb画像からの3dモーションキャプチャは、非常に困難で、不適切で、未解決な問題である。 既存の方法では弱くしか対処できず、人間がシーン表面と相互作用する際に発生する表面の変形をモデル化しない。 そこで本稿では,3次元シーンの非剛性変形を明示的にモデル化し,3次元ポーズ推定と変形可能な環境復元を行うための新しい枠組みであるmocapdeformを提案する。 MoCapDeformはモノクロのRGBビデオとカメラ空間に並んだ3Dシーンメッシュを受け入れる。 まず、新しいレイキャストベースの戦略を用いて、入力単眼ビデオ中の被写体を濃密な接触ラベルとともにローカライズする。 次に、人間の環境相互作用の制約を利用して、グローバルな3次元人間のポーズと非剛体表面の変形を協調的に最適化する。 MoCapDeformは、いくつかのデータセットで競合するメソッドよりも優れた精度を実現しています。

3D human motion capture from monocular RGB images respecting interactions of a subject with complex and possibly deformable environments is a very challenging, ill-posed and under-explored problem. Existing methods address it only weakly and do not model possible surface deformations often occurring when humans interact with scene surfaces. In contrast, this paper proposes MoCapDeform, i.e., a new framework for monocular 3D human motion capture that is the first to explicitly model non-rigid deformations of a 3D scene for improved 3D human pose estimation and deformable environment reconstruction. MoCapDeform accepts a monocular RGB video and a 3D scene mesh aligned in the camera space. It first localises a subject in the input monocular video along with dense contact labels using a new raycasting based strategy. Next, our human-environment interaction constraints are leveraged to jointly optimise global 3D human poses and non-rigid surface deformations. MoCapDeform achieves superior accuracy than competing methods on several datasets, including our newly recorded one with deforming background scenes.
翻訳日:2022-08-18 13:11:09 公開日:2022-08-17
# 法的結果予測における否定的前例の役割について

On the Role of Negative Precedent in Legal Outcome Prediction ( http://arxiv.org/abs/2208.08225v1 )

ライセンス: Link先を確認
Josef Valvoda, Ryan Cotterell, Simone Teufel(参考訳) あらゆる訴訟は、以下の2つの方法のいずれかで法律を開発することによって前例を定めている。 範囲を広げて、肯定的な前例を設定するか、狭めるか、否定的な前例を作るかのどちらかである。 法的結果予測は、肯定的前兆の予測以外にないが、aiにおいてますます一般的なタスクである一方、否定的結果に焦点を当てて否定的前兆予測を初めて調査する。 正および負の結果を予測する既存モデルの非対称性を発見する。 最先端の結果予測モデルが75.06 f1で正の結果を予測する場合、負の結果はランダムなベースラインよりも10.09 f1で予測される。 この性能ギャップに対処するために、裁判所プロセスのダイナミクスに触発された2つの新しいモデルを開発する。 第1モデルは 77.15 F1 に,第2モデルは24.01 F1 に負の結果予測性能を2倍以上に向上させる。 この改善にもかかわらず、ネガティブな結果に焦点を移すことで、モデリング法に関してはまだ成長の余地が十分にあることがわかる。

Every legal case sets a precedent by developing the law in one of the following two ways. It either expands its scope, in which case it sets positive precedent, or it narrows it down, in which case it sets negative precedent. While legal outcome prediction, which is nothing other than the prediction of positive precedents, is an increasingly popular task in AI, we are the first to investigate negative precedent prediction by focusing on negative outcomes. We discover an asymmetry in existing models' ability to predict positive and negative outcomes. Where state-of-the-art outcome prediction models predicts positive outcomes at 75.06 F1, they predicts negative outcomes at only 10.09 F1, worse than a random baseline. To address this performance gap, we develop two new models inspired by the dynamics of a court process. Our first model significantly improves positive outcome prediction score to 77.15 F1 and our second model more than doubles the negative outcome prediction performance to 24.01 F1. Despite this improvement, shifting focus to negative outcomes reveals that there is still plenty of room to grow when it comes to modelling law.
翻訳日:2022-08-18 13:10:54 公開日:2022-08-17
# 不確実性を用いたグラデーションベースメタラーニング : 数発学習における損失重み付け

Gradient-Based Meta-Learning Using Uncertainty to Weigh Loss for Few-Shot Learning ( http://arxiv.org/abs/2208.08135v1 )

ライセンス: Link先を確認
Lin Ding, Peng Liu, Wenfeng Shen, Weijia Lu, Shengbo Chen(参考訳) Model-Agnostic Meta-Learning (MAML)は、数ショット学習において最も成功したメタラーニング手法の1つである。 勾配降下を使用してさまざまなタスク間の共通性を学び、モデルが自身のパラメータのメタ初期化を学習し、少量のラベル付きトレーニングデータを使用して新しいタスクに迅速に適応できるようにする。 少数ショット学習における重要な課題は、タスクの不確実性である。 大量のタスクを持つメタラーニングから、強い事前知識を得ることができるが、トレーニングデータセットのボリュームが通常小さすぎるため、新しいタスクの精度モデルを保証することはできない。 本研究では,まず初期化パラメータを選択する過程で,タスク固有の学習者に対して,新しいタスクの損失を最小限に抑えるような初期化パラメータを適応的に選択する新しい手法を提案する。 そこで,2つの改良された方法を提案する。メソッド1はメタロス差を比較して重みを発生させ,クラス数が少ない場合の精度を向上させるとともに,メソッド2は各タスクの相補的不確実性を導入し,元の勾配勾配に基づいて複数の損失を重み付けし,新しいクラスへの一般化能力を向上し,精度の向上を図る。 従来の勾配型メタラーニング手法と比較して,回帰タスクの性能向上と少数ショット分類を達成し,メタテストセットの学習率と問合せ集合に対するモデルの頑健性を改善した。

Model-Agnostic Meta-Learning (MAML) is one of the most successful meta-learning techniques for few-shot learning. It uses gradient descent to learn commonalities between various tasks, enabling the model to learn the meta-initialization of its own parameters to quickly adapt to new tasks using a small amount of labeled training data. A key challenge to few-shot learning is task uncertainty. Although a strong prior can be obtained from meta-learning with a large number of tasks, a precision model of the new task cannot be guaranteed because the volume of the training dataset is normally too small. In this study, first,in the process of choosing initialization parameters, the new method is proposed for task-specific learner adaptively learn to select initialization parameters that minimize the loss of new tasks. Then, we propose two improved methods for the meta-loss part: Method 1 generates weights by comparing meta-loss differences to improve the accuracy when there are few classes, and Method 2 introduces the homoscedastic uncertainty of each task to weigh multiple losses based on the original gradient descent,as a way to enhance the generalization ability to novel classes while ensuring accuracy improvement. Compared with previous gradient-based meta-learning methods, our model achieves better performance in regression tasks and few-shot classification and improves the robustness of the model to the learning rate and query sets in the meta-test set.
翻訳日:2022-08-18 13:10:06 公開日:2022-08-17
# Pytorchに基づくディープオートエンコーダモデルの構築

Deep Autoencoder Model Construction Based on Pytorch ( http://arxiv.org/abs/2208.08231v1 )

ライセンス: Link先を確認
Junan Pan, Zhihao Zhao(参考訳) 本稿ではpytorchに基づく深いオートエンコーダモデルを提案する。 このアルゴリズムは、Pytorchのアイデアをオートエンコーダに導入し、隠蔽層ニューロンに接続された入力重みを一定の確率でランダムにクリアし、スパースオートエンコーダの開始点に類似したスパースネットワークの効果を達成する。 新たなアルゴリズムは,モデルの過剰フィットの問題を効果的に解決し,画像分類の精度を向上させる。 最後に実験を行い,実験結果をELM,RELM,AE,SAE,DAEと比較した。

This paper proposes a deep autoencoder model based on Pytorch. This algorithm introduces the idea of Pytorch into the auto-encoder, and randomly clears the input weights connected to the hidden layer neurons with a certain probability, so as to achieve the effect of sparse network, which is similar to the starting point of the sparse auto-encoder. The new algorithm effectively solves the problem of possible overfitting of the model and improves the accuracy of image classification. Finally, the experiment is carried out, and the experimental results are compared with ELM, RELM, AE, SAE, DAE.
翻訳日:2022-08-18 13:09:41 公開日:2022-08-17
# 機械学習による口腔食品の課題予測

Prediction of Oral Food Challenges via Machine Learning ( http://arxiv.org/abs/2208.08268v1 )

ライセンス: Link先を確認
Justin Zhang, Deborah Lee, Kylie Jungles, Diane Shaltis, Kayvan Najarian, Rajan Ravikumar, Georgiana Sanders, Jonathan Gryak(参考訳) 口腔内食問題 (ofc) は患者の食物アレルギーの正確な診断に不可欠である。 しかし、患者はOFCの実施をためらっており、その場合、農村部や市町村の医療環境におけるアレルギー者へのアクセスは限られている。 機械学習手法によるOFC結果の予測は、家庭における食品アレルゲンのラベル解除を容易にし、OFC中の患者や医師の快適性を改善し、OFCの実施数を最小化して医療資源を節約する。 総患者数は1,284例で, 血清ige, 総ige, 皮膚prick test (spts) , 症状, 性別, 年齢など, 臨床因子は1,112例であった。 これらの臨床的特徴を用いて、ピーナッツ、卵、牛乳の課題の結果を予測する機械学習モデルを構築した。 各アレルゲンの最良の性能モデルはLearning Using Concave and Convex Kernels (LUCCK) 法を用いて作成され、それぞれ0.76、0.68、0.70のピーナッツ、卵、牛乳のAUCで予測された。 SHAP(SHapley Additive exPlanations)によるモデル解釈は、特定のIgEが、SPTの捕鯨およびフレア値とともに、OFCの結果を非常に予測していることを示している。 この分析の結果、機械学習はOFCの結果を予測し、関連する臨床的要因を明らかにする可能性を示唆している。

Oral Food Challenges (OFCs) are essential to accurately diagnosing food allergy in patients. However, patients are hesitant to undergo OFCs, and for those that do, there is limited access to allergists in rural/community healthcare settings. The prediction of OFC outcomes through machine learning methods can facilitate the de-labeling of food allergens at home, improve patient and physician comfort during OFCs, and economize medical resources by minimizing the number of OFCs performed. Clinical data was gathered from 1,112 patients who collectively underwent a total of 1,284 OFCs, and consisted of clinical factors including serum specific IgE, total IgE, skin prick tests (SPTs), symptoms, sex, and age. Using these clinical features, machine learning models were constructed to predict outcomes for peanut, egg, and milk challenge. The best performing model for each allergen was created using the Learning Using Concave and Convex Kernels (LUCCK) method, which achieved an Area under the Curve (AUC) for peanut, egg, and milk OFC prediction of 0.76, 0.68, and 0.70, respectively. Model interpretation via SHapley Additive exPlanations (SHAP) indicate that specific IgE, along with wheal and flare values from SPTs, are highly predictive of OFC outcomes. The results of this analysis suggest that machine learning has the potential to predict OFC outcomes and reveal relevant clinical factors for further study.
翻訳日:2022-08-18 13:09:30 公開日:2022-08-17
# LAMA-Net:RUL予測のための潜在アライメントとマニフォールド学習による教師なしドメイン適応

LAMA-Net: Unsupervised Domain Adaptation via Latent Alignment and Manifold Learning for RUL Prediction ( http://arxiv.org/abs/2208.08388v1 )

ライセンス: Link先を確認
Manu Joseph, Varchita Lalwani(参考訳) 予後管理・健康管理(prognostics and health management, phm)は、製造業から多くの注目を集めている新興分野である。 そして、Remaining Useful Life (RUL)予測はあらゆるPHMシステムの中心にある。 最近のデータ駆動リサーチでは、パフォーマンスモデルが教師あり学習パラダイムの下でトレーニングされる前に、大量のラベル付きトレーニングデータを要求する。 ここでは、Transfer Learning (TL) とDomain Adaptation (DA) メソッドが進み、ラベル付きデータを持たない異なるデータ分散を持つ他のドメインに教師付きモデルを一般化できるようにします。 本稿では,最大平均偏差(mmd)を用いたボトルネック・潜在アライメントを誘導したエンコーダ・デコーダに基づくモデル(トランスフォーマ)である \textit{lama-net} を提案し,rul予測のための教師なし等質領域適応問題に対処するための多様体学習を提案する。 \textit{LAMA-Net}はNASAのC-MAPSS Turbofan Engineデータセットを用いて検証され、DAの他の最先端技術と比較される。 その結果,提案手法はRUL予測において領域適応を行う上で有望な手法であることがわかった。 論文のレビューが終わったら、コードは利用可能になる。

Prognostics and Health Management (PHM) is an emerging field which has received much attention from the manufacturing industry because of the benefits and efficiencies it brings to the table. And Remaining Useful Life (RUL) prediction is at the heart of any PHM system. Most recent data-driven research demand substantial volumes of labelled training data before a performant model can be trained under the supervised learning paradigm. This is where Transfer Learning (TL) and Domain Adaptation (DA) methods step in and make it possible for us to generalize a supervised model to other domains with different data distributions with no labelled data. In this paper, we propose \textit{LAMA-Net}, an encoder-decoder based model (Transformer) with an induced bottleneck, Latent Alignment using Maximum Mean Discrepancy (MMD) and manifold learning is proposed to tackle the problem of Unsupervised Homogeneous Domain Adaptation for RUL prediction. \textit{LAMA-Net} is validated using the C-MAPSS Turbofan Engine dataset by NASA and compared against other state-of-the-art techniques for DA. The results suggest that the proposed method offers a promising approach to perform domain adaptation in RUL prediction. Code will be made available once the paper comes out of review.
翻訳日:2022-08-18 13:08:58 公開日:2022-08-17
# 計算クラスタにおける分散学習のための半同期パス積分確率勾配法

SYNTHESIS: A Semi-Asynchronous Path-Integrated Stochastic Gradient Method for Distributed Learning in Computing Clusters ( http://arxiv.org/abs/2208.08425v1 )

ライセンス: Link先を確認
Zhuqing Liu, Xin Zhang, Jia Liu(参考訳) 近年,分散学習の学習速度を向上させるために,同期型および非同期型分散確率分散推論最適化手法の開発に多大な関心が寄せられている。 しかし、既存の同期および非同期分散トレーニングアルゴリズムは、収束速度または実装の複雑さに様々な制限を被っている。 これは、分散分散学習アルゴリズムの同期性と非同期性の両方の制限を克服するために分散還元フレームワークの特別な構造を利用するアルゴリズムである \algname (\ul{s}emi-as\ul{yn}chronous pa\ul{th}-int\ul{e}grated \ul{s}tochastic grad\ul{i}ent \ul{s}earch) を提案する。 本稿では,分散メモリアーキテクチャと共有メモリアーキテクチャの2つの実装について考察する。 分散メモリアーキテクチャおよび共有メモリアーキテクチャ下での非凸学習における \(\epsilon\)-定常点を達成するための計算複雑性は、それぞれ \(n\) はトレーニングサンプルの総数を表し、 \(\delta\) は作業者の最大遅延を表す。 さらに, 2次強い凸と非凸最適化のためのアルゴリズム的安定性境界を確立することにより, \algnameの一般化性能について検討する。 理論的な結果を検証するために 広範な数値実験も行います

To increase the training speed of distributed learning, recent years have witnessed a significant amount of interest in developing both synchronous and asynchronous distributed stochastic variance-reduced optimization methods. However, all existing synchronous and asynchronous distributed training algorithms suffer from various limitations in either convergence speed or implementation complexity. This motivates us to propose an algorithm called \algname (\ul{s}emi-as\ul{yn}chronous pa\ul{th}-int\ul{e}grated \ul{s}tochastic grad\ul{i}ent \ul{s}earch), which leverages the special structure of the variance-reduction framework to overcome the limitations of both synchronous and asynchronous distributed learning algorithms, while retaining their salient features. We consider two implementations of \algname under distributed and shared memory architectures. We show that our \algname algorithms have \(O(\sqrt{N}\epsilon^{-2}(\Delta+1)+N)\) and \(O(\sqrt{N}\epsilon^{-2}(\Delta+1) d+N)\) computational complexities for achieving an \(\epsilon\)-stationary point in non-convex learning under distributed and shared memory architectures, respectively, where \(N\) denotes the total number of training samples and \(\Delta\) represents the maximum delay of the workers. Moreover, we investigate the generalization performance of \algname by establishing algorithmic stability bounds for quadratic strongly convex and non-convex optimization. We further conduct extensive numerical experiments to verify our theoretical findings
翻訳日:2022-08-18 13:08:33 公開日:2022-08-17
# decoupled dynamic spatial-embedding fusion networkによるステレオスーパーピクセルセグメンテーション

Stereo Superpixel Segmentation Via Decoupled Dynamic Spatial-Embedding Fusion Network ( http://arxiv.org/abs/2208.08145v1 )

ライセンス: Link先を確認
Hua Li and Junyan Liang and Ruiqi Wu and Runmin Cong and Junhui Wu and Sam Tak Wu Kwong(参考訳) ステレオスーパーピクセルセグメンテーションは、識別画素を左右のビューを通してより協調的かつ効率的に知覚領域にグループ化することを目的としている。 既存のスーパーピクセルセグメンテーションアルゴリズムは、主に色と空間の特徴を入力として利用し、ステレオ画像対の差分情報を利用して空間情報に強い制約を与える。 そこで本研究では,空間情報の分離機構を備えたステレオ超画素分割手法を提案する。 立体差分情報と空間情報を分離するために、ステレオ画像対の特徴を融合する前に空間情報を一時的に除去し、ステレオ特徴のアライメントや閉塞問題に対処するために、分離されたステレオ融合モジュール(DSFM)を提案する。 さらに,空間情報がスーパーピクセルセグメンテーションに欠かせないため,空間情報を再付加するための動的空間性埋め込みモジュール(DSEM)を設計し,より微細なセグメンテーションを実現するためのDSEMの動的融合(DF)機構によって空間情報の重みを適応的に調整する。 包括的実験により,本手法はkitti2015およびcityscapesデータセットの最先端性能を達成し,nju2kデータセットのsalient object detectionに適用した場合の効率性を検証することができた。 ソースコードはpaperが受け入れられた後に公開される予定だ。

Stereo superpixel segmentation aims at grouping the discretizing pixels into perceptual regions through left and right views more collaboratively and efficiently. Existing superpixel segmentation algorithms mostly utilize color and spatial features as input, which may impose strong constraints on spatial information while utilizing the disparity information in terms of stereo image pairs. To alleviate this issue, we propose a stereo superpixel segmentation method with a decoupling mechanism of spatial information in this work. To decouple stereo disparity information and spatial information, the spatial information is temporarily removed before fusing the features of stereo image pairs, and a decoupled stereo fusion module (DSFM) is proposed to handle the stereo features alignment as well as occlusion problems. Moreover, since the spatial information is vital to superpixel segmentation, we further design a dynamic spatiality embedding module (DSEM) to re-add spatial information, and the weights of spatial information will be adaptively adjusted through the dynamic fusion (DF) mechanism in DSEM for achieving a finer segmentation. Comprehensive experimental results demonstrate that our method can achieve the state-of-the-art performance on the KITTI2015 and Cityscapes datasets, and also verify the efficiency when applied in salient object detection on NJU2K dataset. The source code will be available publicly after paper is accepted.
翻訳日:2022-08-18 13:05:55 公開日:2022-08-17
# 脳波データを用いた感情分類のためのカーネル注意モジュールKAM

KAM -- a Kernel Attention Module for Emotion Classification with EEG Data ( http://arxiv.org/abs/2208.08161v1 )

ライセンス: Link先を確認
Dongyang Kuang and Craig Michoski(参考訳) 本稿では,ニューラルネットワークを用いた脳波に基づく感情分類のタスクとして,カーネルアテンションモジュールを提案する。 提案モジュールはカーネルトリックを実行することで自己注意機構を利用し、標準のアテンションモジュールよりもトレーニング可能なパラメータや計算をはるかに少なくする。 この設計はまた、深い機能改良の間に割り当てられた注意の量を定量的に調べるためのスカラーを提供するため、トレーニングされたモデルをよりよく解釈するのに役立つ。 EEGNetをバックボーンモデルとし、SEEDデータセットを用いて、他のSOTAアテンションモジュールと比較して、オブジェクト内分類タスクにおけるモジュールの性能を評価する。 追加パラメータを1つだけ必要とすると、挿入されたモジュールは、ベースモデルの平均予測精度を15被験者で1\%以上向上させる。 このメソッドの重要なコンポーネントはソリューションの解釈可能性であり、いくつかの異なるテクニックを使って対処され、依存分析の一部として全体に含まれる。

In this work, a kernel attention module is presented for the task of EEG-based emotion classification with neural networks. The proposed module utilizes a self-attention mechanism by performing a kernel trick, demanding significantly fewer trainable parameters and computations than standard attention modules. The design also provides a scalar for quantitatively examining the amount of attention assigned during deep feature refinement, hence help better interpret a trained model. Using EEGNet as the backbone model, extensive experiments are conducted on the SEED dataset to assess the module's performance on within-subject classification tasks compared to other SOTA attention modules. Requiring only one extra parameter, the inserted module is shown to boost the base model's mean prediction accuracy up to more than 1\% across 15 subjects. A key component of the method is the interpretability of solutions, which is addressed using several different techniques, and is included throughout as part of the dependency analysis.
翻訳日:2022-08-18 13:05:14 公開日:2022-08-17
# Prompt-based Finetuningによるオープン語彙シーングラフ生成に向けて

Towards Open-vocabulary Scene Graph Generation with Prompt-based Finetuning ( http://arxiv.org/abs/2208.08165v1 )

ライセンス: Link先を確認
Tao He, Lianli Gao, Jingkuan Song, Yuan-Fang Li(参考訳) シーングラフ生成(SGG)は、画像内のオブジェクト間の視覚的関係を検出するための基本的なタスクである。 一般的なSGGメソッドは、トレーニングセットで与えられるすべてのオブジェクトクラスを必要とします。 このような閉じた設定は、SGGの実用的応用を制限する。 本稿では,ベースオブジェクトクラスの集合上でモデルをトレーニングするが,対象オブジェクトクラスを対象としない関係を推測する必要がある,斬新で現実的で挑戦的な設定であるopen-vocabulary scene graph generationを提案する。 そこで本研究では,まず,粒度の粗粒度データに対して事前学習を行い,次いで2つのプロンプトベース手法を用いてパラメータを更新せずに事前学習したモデルを微調整する2段階法を提案する。 さらに,既存のメソッドでは処理が不可能なオブジェクトクラスに対する推論もサポートする。 3つのベンチマークデータセット(Visual Genome, GQA, Open-Image)に対する広範な実験では,Ov-SGGの設定や従来のクローズドSGGよりも,最近の強力なSGG法よりも優れていた。

Scene graph generation (SGG) is a fundamental task aimed at detecting visual relations between objects in an image. The prevailing SGG methods require all object classes to be given in the training set. Such a closed setting limits the practical application of SGG. In this paper, we introduce open-vocabulary scene graph generation, a novel, realistic and challenging setting in which a model is trained on a set of base object classes but is required to infer relations for unseen target object classes. To this end, we propose a two-step method that firstly pre-trains on large amounts of coarse-grained region-caption data and then leverages two prompt-based techniques to finetune the pre-trained model without updating its parameters. Moreover, our method can support inference over completely unseen object classes, which existing methods are incapable of handling. On extensive experiments on three benchmark datasets, Visual Genome, GQA, and Open-Image, our method significantly outperforms recent, strong SGG methods on the setting of Ov-SGG, as well as on the conventional closed SGG.
翻訳日:2022-08-18 13:04:47 公開日:2022-08-17
# 胸部X線写真におけるマルチラベル病分類のためのデータ効率の良い視覚変換器

Data-Efficient Vision Transformers for Multi-Label Disease Classification on Chest Radiographs ( http://arxiv.org/abs/2208.08166v1 )

ライセンス: Link先を確認
Finn Behrendt, Debayan Bhattacharya, Julia Kr\"uger, Roland Opfer, Alexander Schlaefer(参考訳) radiographsは、病態の検出と評価、治療計画、または臨床介入におけるナビゲーションおよびローカライズのための多用途な診断ツールである。 しかし、放射線科医による解釈と評価は退屈で誤りやすい。 そこで,ラジオグラフィーの解釈を支援するため,様々な深層学習手法が提案されている。 主に、これらのアプローチは画像から特徴を抽出するために畳み込みニューラルネットワーク(CNN)に依存している。 特に胸部X線写真(Chest X-rays, CXR)の病理分類では, CNNが好適であることが証明されている。 それとは対照的に視覚トランスフォーマー(vits)は、汎用画像の分類性能が高く、臨床介入に付加価値を与えるような局所的塩分マップがあるにもかかわらず、このタスクには適用されていない。 ViTは、畳み込みではなくパッチベースの自己アテンションに依存しており、CNNとは対照的に、ローカル接続に関する事前の知識は存在しない。 これは容量の増加につながるが、vitsは通常、大きな医療データセットの収集にコストがかかるため、医療領域におけるハードルを示す過剰な量のトレーニングデータを必要とする。 本研究では,異なるデータセットサイズに対するViTとCNNの分類性能を体系的に比較し,よりデータ効率のよいViT変種(DeiT)を評価する。 以上の結果から,ViTとCNNのパフォーマンスはViTの利点に匹敵するものの,DeiTsはトレーニングに十分な大容量データセットが利用できる場合,前者よりも優れていた。

Radiographs are a versatile diagnostic tool for the detection and assessment of pathologies, for treatment planning or for navigation and localization purposes in clinical interventions. However, their interpretation and assessment by radiologists can be tedious and error-prone. Thus, a wide variety of deep learning methods have been proposed to support radiologists interpreting radiographs. Mostly, these approaches rely on convolutional neural networks (CNN) to extract features from images. Especially for the multi-label classification of pathologies on chest radiographs (Chest X-Rays, CXR), CNNs have proven to be well suited. On the Contrary, Vision Transformers (ViTs) have not been applied to this task despite their high classification performance on generic images and interpretable local saliency maps which could add value to clinical interventions. ViTs do not rely on convolutions but on patch-based self-attention and in contrast to CNNs, no prior knowledge of local connectivity is present. While this leads to increased capacity, ViTs typically require an excessive amount of training data which represents a hurdle in the medical domain as high costs are associated with collecting large medical data sets. In this work, we systematically compare the classification performance of ViTs and CNNs for different data set sizes and evaluate more data-efficient ViT variants (DeiT). Our results show that while the performance between ViTs and CNNs is on par with a small benefit for ViTs, DeiTs outperform the former if a reasonably large data set is available for training.
翻訳日:2022-08-18 13:04:26 公開日:2022-08-17
# IDAN:変化検出のための画像差分注意ネットワーク

IDAN: Image Difference Attention Network for Change Detection ( http://arxiv.org/abs/2208.08292v1 )

ライセンス: Link先を確認
Hongkun Liu, Zican Hu, Qichen Ding, Xueyun Chen(参考訳) リモートセンシング画像変化検出は災害評価や都市計画において非常に重要である。 主な方法は、エンコーダデコーダモデルを用いて、2つの入力画像の変化領域を検出することである。 リモートセンシング画像の変更内容は、広い範囲やバラエティの特性を有するため、押し出しブロック、非局所ブロック、畳み込みブロックアテンションモジュールなどを含むアテンション機構を多くして、ネットワークの検出精度を向上させる必要がある。 これらの手法は、チャンネル間やチャンネル内における異なる位置特徴の重要性を考察するが、入力画像間の差異を認識できない。 本稿では,新しい画像差分注意ネットワーク(IDAN)を提案する。 画像前処理の段階では,2つの入力画像間の特徴差を抽出して特徴差マップ(FD-map)と,エッジ検出用Cannyを用いてエッジ差マップ(ED-map)を得る。 画像特徴抽出段階において、特徴差注意モジュールとエッジ補償モジュールにFDマップとEDマップとをそれぞれ入力し、IDANにより抽出された特徴を最適化する。 最後に、特徴差分演算により変化検出結果を得る。 IDANは画像の領域的特徴とエッジ的特徴の違いを包括的に考慮し、抽出した画像特徴を最適化する。 実験の結果,idan の f1-score はそれぞれ whu データセットと levir-cd データセットのベースラインモデルと比較して 1.62% と 1.98% 改善した。

Remote sensing image change detection is of great importance in disaster assessment and urban planning. The mainstream method is to use encoder-decoder models to detect the change region of two input images. Since the change content of remote sensing images has the characteristics of wide scale range and variety, it is necessary to improve the detection accuracy of the network by increasing the attention mechanism, which commonly includes: Squeeze-and-Excitation block, Non-local and Convolutional Block Attention Module, among others. These methods consider the importance of different location features between channels or within channels, but fail to perceive the differences between input images. In this paper, we propose a novel image difference attention network (IDAN). In the image preprocessing stage, we use a pre-training model to extract the feature differences between two input images to obtain the feature difference map (FD-map), and Canny for edge detection to obtain the edge difference map (ED-map). In the image feature extracting stage, the FD-map and ED-map are input to the feature difference attention module and edge compensation module, respectively, to optimize the features extracted by IDAN. Finally, the change detection result is obtained through the feature difference operation. IDAN comprehensively considers the differences in regional and edge features of images and thus optimizes the extracted image features. The experimental results demonstrate that the F1-score of IDAN improves 1.62% and 1.98% compared to the baseline model on WHU dataset and LEVIR-CD dataset, respectively.
翻訳日:2022-08-18 13:04:02 公開日:2022-08-17
# ParaColorizer:並列生成ネットワークを用いた実写画像のカラー化

ParaColorizer: Realistic Image Colorization using Parallel Generative Networks ( http://arxiv.org/abs/2208.08295v1 )

ライセンス: Link先を確認
Himanshu Kumar, Abeer Banerjee, Sumeet Saurav, Sanjay Singh(参考訳) グレースケール画像のカラー化は、情報復元のためのAIの魅力的な応用である。 この問題の本質的に不適切な性質は、出力がマルチモーダルであるため、さらに難しい。 現在使われている学習ベースの手法は、単純なケースでは許容できる結果をもたらすが、明快な図形の分離がない場合、通常は文脈情報の復元に失敗する。 また、フルイメージの特徴を訓練した単一のモデルでは、多様なデータモードを学習できないため、画像は色出血や不飽和な背景に悩まされる。 これらの問題に対処するために、GANベースの並列カラー化フレームワークを提案する。 私たちのアプローチでは、それぞれのganパイプラインが前景(オブジェクトレベルの機能を使用)や背景(フルイメージ機能を使用)を色分けしています。 前景パイプラインでは、自己アテンションを備えたResidual-UNetが、そのジェネレータとして、フルイメージ機能と、COCOデータセットの対応するオブジェクトレベルの機能を使用してトレーニングされている。 バックグラウンドパイプラインは、Placesデータセットのフルイメージ機能と追加のトレーニング例に依存している。 並列出力の特徴量に基づく融合により最終的なカラー化画像を得るために, 高密度融合ネットワークを設計する。 画像のカラー化などのマルチモーダル問題評価に一般的に用いられる非知覚的評価指標の欠点を示し,複数の知覚的指標を用いたフレームワークの性能評価を行う。 本手法は既存の学習手法よりも優れ,最先端の手法に匹敵する結果が得られる。 さらに,実行時解析を行い,平均推定時間は画像当たり24msであった。

Grayscale image colorization is a fascinating application of AI for information restoration. The inherently ill-posed nature of the problem makes it even more challenging since the outputs could be multi-modal. The learning-based methods currently in use produce acceptable results for straightforward cases but usually fail to restore the contextual information in the absence of clear figure-ground separation. Also, the images suffer from color bleeding and desaturated backgrounds since a single model trained on full image features is insufficient for learning the diverse data modes. To address these issues, we present a parallel GAN-based colorization framework. In our approach, each separately tailored GAN pipeline colorizes the foreground (using object-level features) or the background (using full-image features). The foreground pipeline employs a Residual-UNet with self-attention as its generator trained using the full-image features and the corresponding object-level features from the COCO dataset. The background pipeline relies on full-image features and additional training examples from the Places dataset. We design a DenseFuse-based fusion network to obtain the final colorized image by feature-based fusion of the parallelly generated outputs. We show the shortcomings of the non-perceptual evaluation metrics commonly used to assess multi-modal problems like image colorization and perform extensive performance evaluation of our framework using multiple perceptual metrics. Our approach outperforms most of the existing learning-based methods and produces results comparable to the state-of-the-art. Further, we performed a runtime analysis and obtained an average inference time of 24ms per image.
翻訳日:2022-08-18 13:03:36 公開日:2022-08-17
# so(3)-pose:so(3)-等分散学習による6次元物体ポーズ推定

SO(3)-Pose: SO(3)-Equivariance Learning for 6D Object Pose Estimation ( http://arxiv.org/abs/2208.08338v1 )

ライセンス: Link先を確認
Haoran Pan, Jun Zhou, Yuanpeng Liu, Xuequan Lu, Weiming Wang, Xuefeng Yan, Mingqiang Wei(参考訳) rgb-d画像からの剛体物体の6次元ポーズ推定はロボットの物体把握と操作に不可欠である。 rgbチャネルと深度(d)チャネルは相補的であり、それぞれ外観と形状の情報を提供するが、2つのクロスモーダルデータから完全に恩恵を受ける方法はいまだに自明ではない。 単純で新しい観察では、物体が回転するとき、その意味ラベルはポーズに不変であり、キーポイントオフセット方向はポーズに変化している。 この目的のために,ポーズ推定のための深度チャネルからSO(3)-同変およびSO(3)-不変特徴を探索する新しい表現学習ネットワークであるSO(3)-Poseを提案する。 so(3)不変な特徴は、rgbチャネルから類似した外観を持つセグメンテーションオブジェクトのより特徴的な表現を学ぶのに役立つ。 SO(3)-等価な特徴はRGBの特徴と通信し、深度チャネルから反射面を持つ物体のキーポイントを検出する(欠測した)幾何学を推論する。 既存のポーズ推定手法とは異なり、我々のSO(3)-PoseはRGBと深度チャネル間の情報通信を実装しているだけでなく、深度画像からSO(3)-等価な幾何学的知識を自然に吸収し、外観と幾何表現学習の改善をもたらす。 総合的な実験により,本手法は3つのベンチマークで最先端の性能を実現する。

6D pose estimation of rigid objects from RGB-D images is crucial for object grasping and manipulation in robotics. Although RGB channels and the depth (D) channel are often complementary, providing respectively the appearance and geometry information, it is still non-trivial how to fully benefit from the two cross-modal data. From the simple yet new observation, when an object rotates, its semantic label is invariant to the pose while its keypoint offset direction is variant to the pose. To this end, we present SO(3)-Pose, a new representation learning network to explore SO(3)-equivariant and SO(3)-invariant features from the depth channel for pose estimation. The SO(3)-invariant features facilitate to learn more distinctive representations for segmenting objects with similar appearance from RGB channels. The SO(3)-equivariant features communicate with RGB features to deduce the (missed) geometry for detecting keypoints of an object with the reflective surface from the depth channel. Unlike most of existing pose estimation methods, our SO(3)-Pose not only implements the information communication between the RGB and depth channels, but also naturally absorbs the SO(3)-equivariance geometry knowledge from depth images, leading to better appearance and geometry representation learning. Comprehensive experiments show that our method achieves the state-of-the-art performance on three benchmarks.
翻訳日:2022-08-18 13:03:10 公開日:2022-08-17
# 視覚言語事前学習モデルのためのクラスアウェア視覚プロンプトチューニング

Class-Aware Visual Prompt Tuning for Vision-Language Pre-Trained Model ( http://arxiv.org/abs/2208.08340v1 )

ライセンス: Link先を確認
Yinghui Xing, Qirui Wu, De Cheng, Shizhou Zhang, Guoqiang Liang, Yanning Zhang(参考訳) CLIPのような大規模なトレーニング済みビソン言語モデルが出現すると、転送可能な表現は、プロンプトチューニングを通じて、幅広い下流タスクに適応できる。 プロンプトチューニングは、事前訓練された視覚言語モデルの画像とテキストエンコーダに格納された一般的な知識から下流タスクの有益な情報を調べる。 最近提案されたContext Optimization (CoOp) は、言語側からのテキストプロンプトとして学習可能なベクトルのセットを導入し、一方、テキストプロンプトのみをチューニングしても、画像エンコーダの計算された視覚的特徴に影響を与えず、サブ最適となる。 本稿では,テキストプロンプトと画像エンコーダの視覚的プロンプトを同時に学習することにより,2つのモード性プロンプトチューニングパラダイムを提案する。 さらに,視覚的プロンプトを対象の視覚的概念に集中させるため,テンプレートプロンプトの言語記述と視覚的クラストークンの埋め込みを相互に関連付けて動的に生成するクラス認識型ビジュアルプロンプトチューニング(CAVPT)を提案する。 提案手法は,大規模な事前学習型視覚言語モデルをチューニングするための新しいパラダイムを提供し,提案手法の有効性を示す。 私たちのコードは補足資料で利用可能です。

With the emergence of large pre-trained vison-language model like CLIP, transferrable representations can be adapted to a wide range of downstream tasks via prompt tuning. Prompt tuning tries to probe the beneficial information for downstream tasks from the general knowledge stored in both the image and text encoders of the pre-trained vision-language model. A recently proposed method named Context Optimization (CoOp) introduces a set of learnable vectors as text prompt from the language side, while tuning the text prompt alone can not affect the computed visual features of the image encoder, thus leading to sub-optimal. In this paper, we propose a dual modality prompt tuning paradigm through learning text prompts and visual prompts for both the text and image encoder simultaneously. In addition, to make the visual prompt concentrate more on the target visual concept, we propose Class-Aware Visual Prompt Tuning (CAVPT), which is generated dynamically by performing the cross attention between language descriptions of template prompts and visual class token embeddings. Our method provides a new paradigm for tuning the large pre-trained vision-language model and extensive experimental results on 8 datasets demonstrate the effectiveness of the proposed method. Our code is available in the supplementary materials.
翻訳日:2022-08-18 13:02:45 公開日:2022-08-17
# 半教師付きセマンティックセグメンテーションのための多視点相関一貫性

Multi-View Correlation Consistency for Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2208.08437v1 )

ライセンス: Link先を確認
Yunzhong Hou, Stephen Gould, Liang Zheng(参考訳) 半教師付きセマンティックセグメンテーションは、ラベルなしデータのリッチで堅牢な監視を必要とする。 一貫性学習は、異なる拡張ビューで同様の特徴を持つように同じピクセルを強制する。 対照的に、コントラスト学習はリッチなペアワイズ関係を考慮しているが、画素対に対してバイナリ正負の監視信号を割り当てるのは難解である。 本稿では,両世界を最大限に活用し,多視点相関整合性(MVCC)学習を提案する。 この相関一貫性の損失とともに、異なるビュー間の画素・画素対応を保証するビューコヒーレントなデータ拡張戦略を提案する。 2つのデータセットの半教師付き設定では、最先端の手法と比較して、競合精度を報告する。 特に、cityscapesでは、1/8のラベル付きデータで76.8%のmiouを達成しています。

Semi-supervised semantic segmentation needs rich and robust supervision on unlabeled data. Consistency learning enforces the same pixel to have similar features in different augmented views, which is a robust signal but neglects relationships with other pixels. In comparison, contrastive learning considers rich pairwise relationships, but it can be a conundrum to assign binary positive-negative supervision signals for pixel pairs. In this paper, we take the best of both worlds and propose multi-view correlation consistency (MVCC) learning: it considers rich pairwise relationships in self-correlation matrices and matches them across views to provide robust supervision. Together with this correlation consistency loss, we propose a view-coherent data augmentation strategy that guarantees pixel-pixel correspondence between different views. In a series of semi-supervised settings on two datasets, we report competitive accuracy compared with the state-of-the-art methods. Notably, on Cityscapes, we achieve 76.8% mIoU with 1/8 labeled data, just 0.6% shy from the fully supervised oracle.
翻訳日:2022-08-18 13:02:22 公開日:2022-08-17
# 少ない色とそれ以上のイメージを構築することを学ぶ

Learning to Structure an Image with Few Colors and Beyond ( http://arxiv.org/abs/2208.08438v1 )

ライセンス: Link先を確認
Yunzhong Hou, Liang Zheng, Stephen Gould(参考訳) 色と構造は、イメージに意味を与えるために結合する2つの柱である。 ニューラルネットワーク認識のための重要な構造に興味を持ち、色空間を数ビットに制限することで色の影響を分離し、そのような制約下でネットワーク認識を可能にする構造を見つける。 そこで本研究では,カラー量子化ネットワークであるColorCNNを提案する。 ColorCNNのアーキテクチャと洞察に基づいて、複数の色空間サイズ構成をサポートするColorCNN+を導入し、大きな色空間下での認識精度の低下と望ましくない視覚的忠実さに関する以前の問題に対処する。 新しい模倣学習アプローチであるColorCNN+は、従来のカラー量子化手法のような色をクラスタリングすることを学ぶ。 これにより、過剰適合を低減し、大きな色空間における視覚的忠実度と認識精度の両方に役立つ。 実験により、colorcnn+は、ネットワーク認識のための重要な構造と正確な色による視覚的忠実性の両方を保ちながら、ほとんどの状況下で非常に競争力のある結果が得られることが確かめられた。 さらに,キー構造と正確な色の違いと,ネットワーク認識への寄与について考察した。 そこで本研究では,カラーcnnをネットワーク認識のための画像圧縮法として使用できることを示す。

Color and structure are the two pillars that combine to give an image its meaning. Interested in critical structures for neural network recognition, we isolate the influence of colors by limiting the color space to just a few bits, and find structures that enable network recognition under such constraints. To this end, we propose a color quantization network, ColorCNN, which learns to structure an image in limited color spaces by minimizing the classification loss. Building upon the architecture and insights of ColorCNN, we introduce ColorCNN+, which supports multiple color space size configurations, and addresses the previous issues of poor recognition accuracy and undesirable visual fidelity under large color spaces. Via a novel imitation learning approach, ColorCNN+ learns to cluster colors like traditional color quantization methods. This reduces overfitting and helps both visual fidelity and recognition accuracy under large color spaces. Experiments verify that ColorCNN+ achieves very competitive results under most circumstances, preserving both key structures for network recognition and visual fidelity with accurate colors. We further discuss differences between key structures and accurate colors, and their specific contributions to network recognition. For potential applications, we show that ColorCNNs can be used as image compression methods for network recognition.
翻訳日:2022-08-18 13:02:03 公開日:2022-08-17
# PDRF-Blurry画像からの高速・ロバストなシーン再構成のためのプログレッシブデブレアリング放射場

PDRF: Progressively Deblurring Radiance Field for Fast and Robust Scene Reconstruction from Blurry Images ( http://arxiv.org/abs/2208.08049v1 )

ライセンス: Link先を確認
Cheng Peng, Rama Chellappa(参考訳) 本稿では,高画質の放射場をぼやけた画像から効率的に再構成する手法であるPDRF(Progressive Deblurring Radiance Field)を提案する。 現状の SoTA (State-of-The-Art) シーン再構築手法はクリーンソースビューから写真リアルなレンダリング結果が得られるが,その性能は,野生の画像でよく見られるぼやけの影響を受けると損なわれる。 従来のデブロワーリング法は3次元幾何学を考慮しないか、あるいは計算的に強い。 これらの問題に対処するため、PDRFは3Dシーンコンテキストを組み込むことで正確なモデルの曖昧化を図っている。 PDRFはさらに、高速なシーン最適化をもたらす効率的な重要度サンプリングスキームを使用している。 具体的には、PDRFはボクセル密度と特徴を素早く推定する粗いレイレンダーを提案し、次いで高品質なレイトレーシングを実現するためにファイン・ボクセル・レンダーを使用する。 幅広い実験を行い, pdrf が従来の sota の15倍高速であり, 合成シーンと実シーンの両方で性能が向上することを示した。

We present Progressively Deblurring Radiance Field (PDRF), a novel approach to efficiently reconstruct high quality radiance fields from blurry images. While current State-of-The-Art (SoTA) scene reconstruction methods achieve photo-realistic rendering results from clean source views, their performances suffer when the source views are affected by blur, which is commonly observed for images in the wild. Previous deblurring methods either do not account for 3D geometry, or are computationally intense. To addresses these issues, PDRF, a progressively deblurring scheme in radiance field modeling, accurately models blur by incorporating 3D scene context. PDRF further uses an efficient importance sampling scheme, which results in fast scene optimization. Specifically, PDRF proposes a Coarse Ray Renderer to quickly estimate voxel density and feature; a Fine Voxel Renderer is then used to achieve high quality ray tracing. We perform extensive experiments and show that PDRF is 15X faster than previous SoTA while achieving better performance on both synthetic and real scenes.
翻訳日:2022-08-18 12:59:36 公開日:2022-08-17
# 仮想トライオンにおける骨格的特徴の意義

Significance of Skeleton-based Features in Virtual Try-On ( http://arxiv.org/abs/2208.08076v1 )

ライセンス: Link先を確認
Debapriya Roy, Diganta Mukherjee, Bhabatosh Chanda(参考訳) textit{virtual try-on} (vton) というアイデアは、家の中で快適に衣服を試着する利便性をユーザに与えることで、e-retailingのメリットを享受する。 一般に、既存のVTONの手法のほとんどは、腕を折り曲げたり、曲げたり、交差させたりしてポーズをとったりすると、一貫性のない結果をもたらす。 長袖の衣装の場合、この問題は深刻になる。 それ以来、腕の交叉姿勢では、異なる衣服部品の重なりが生じる可能性がある。 既存のアプローチ、特に \textit{Thin Plate Spline (TPS) 変換を用いたワーピングベースの手法はそのようなケースに対処できない。 そこで本研究では,対象者の衣服を意味的に意味のある部品に分割し,各部位を個人の形状と独立して反動させる手法を提案する。 屈曲問題に対処するために,手作りの幾何学的特徴を人体形状と整合して使用した。 さらに,合成ネットワークとマスク予測ネットワークという,学習に基づく2つのモジュールを提案する。 これらすべては、ペアのトレーニングデータを必要とせずに、フォトリアリスティックでポーズローバストなVTONソリューションを作成しようとする。 いくつかのベンチマーク手法と比較すると、アプローチの有効性は明らかである。

The idea of \textit{Virtual Try-ON} (VTON) benefits e-retailing by giving an user the convenience of trying a clothing at the comfort of their home. In general, most of the existing VTON methods produce inconsistent results when a person posing with his arms folded i.e., bent or crossed, wants to try an outfit. The problem becomes severe in the case of long-sleeved outfits. As then, for crossed arm postures, overlap among different clothing parts might happen. The existing approaches, especially the warping-based methods employing \textit{Thin Plate Spline (TPS)} transform can not tackle such cases. To this end, we attempt a solution approach where the clothing from the source person is segmented into semantically meaningful parts and each part is warped independently to the shape of the person. To address the bending issue, we employ hand-crafted geometric features consistent with human body geometry for warping the source outfit. In addition, we propose two learning-based modules: a synthesizer network and a mask prediction network. All these together attempt to produce a photo-realistic, pose-robust VTON solution without requiring any paired training data. Comparison with some of the benchmark methods clearly establishes the effectiveness of the approach.
翻訳日:2022-08-18 12:59:14 公開日:2022-08-17
# 異なる視点で見る:マルチスキーム回帰誘導型セルインスタンスセグメンテーション

Look in Different Views: Multi-Scheme Regression Guided Cell Instance Segmentation ( http://arxiv.org/abs/2208.08078v1 )

ライセンス: Link先を確認
Menghao Li, Wenquan Feng, Shuchang Lyu, Lijiang Chen, Qi Zhao(参考訳) セルインスタンスのセグメンテーションは、画像内の各セルのジョイント検出とセグメンテーションを目的とした、新しくて挑戦的なタスクである。 近年,この課題に多くのインスタンスセグメンテーション手法が適用されている。 その大きな成功にもかかわらず、細胞中心点の局在性の不確実性によって引き起こされる2つの大きな弱点がある。 まず、密集した細胞を1つの細胞に容易に認識することができる。 第二に、細長い細胞は2つの細胞に容易に認識できる。 この2つの弱点を克服するために,マルチスキーム回帰指導に基づく新しいセルインスタンス分割ネットワークを提案する。 マルチスキーム回帰ガイダンスでは、ネットワークは各セルを異なるビューで見ることができる。 具体的には,まずネットワークの注意を誘導するためにガウスラベルを使用するガウス指導注意機構を提案する。 次に,セル中心の回帰を支援する点回帰モジュールを提案する。 最後に、上記の2つのモジュールの出力を利用して、インスタンスセグメンテーションをさらにガイドする。 マルチスキーム回帰誘導により、異なる領域、特に細胞の中心領域の特性を最大限に活用することができる。 ベンチマークデータセット、DSB2018、CA2.5、SCISについて広範な実験を行った。 その結果,我々のネットワークがSOTA(state-of-the-art)の性能を達成することを示す。 DSB2018とCA2.5では、従来の手法を1.2%上回る(AP50)。 特にSCISデータセットでは、ネットワークは大きなマージン(3.0%高AP50)でより強力に動作します。 可視化と解析により,提案手法が解釈可能であることを示す。

Cell instance segmentation is a new and challenging task aiming at joint detection and segmentation of every cell in an image. Recently, many instance segmentation methods have applied in this task. Despite their great success, there still exists two main weaknesses caused by uncertainty of localizing cell center points. First, densely packed cells can easily be recognized into one cell. Second, elongated cell can easily be recognized into two cells. To overcome these two weaknesses, we propose a novel cell instance segmentation network based on multi-scheme regression guidance. With multi-scheme regression guidance, the network has the ability to look each cell in different views. Specifically, we first propose a gaussian guidance attention mechanism to use gaussian labels for guiding the network's attention. We then propose a point-regression module for assisting the regression of cell center. Finally, we utilize the output of the above two modules to further guide the instance segmentation. With multi-scheme regression guidance, we can take full advantage of the characteristics of different regions, especially the central region of the cell. We conduct extensive experiments on benchmark datasets, DSB2018, CA2.5 and SCIS. The encouraging results show that our network achieves SOTA (state-of-the-art) performance. On the DSB2018 and CA2.5, our network surpasses previous methods by 1.2% (AP50). Particularly on SCIS dataset, our network performs stronger by large margin (3.0% higher AP50). Visualization and analysis further prove that our proposed method is interpretable.
翻訳日:2022-08-18 12:58:54 公開日:2022-08-17
# 2つの頭は1より優れている:ロバスト学習はマルチブランチモデルと出会う

Two Heads are Better than One: Robust Learning Meets Multi-branch Models ( http://arxiv.org/abs/2208.08083v1 )

ライセンス: Link先を確認
Dong Huang, Qingwen Bu, Yuhao Qing, Haowen Pi, Sen Wang, Heming Cui(参考訳) ディープニューラルネットワーク(DNN)は敵の例に対して脆弱であり、DNNは知覚不能な摂動を含む入力によって誤った出力に誤解される。 信頼性が高く効果的な防御方法である敵の訓練は、ニューラルネットワークの脆弱性を著しく減らし、堅牢な学習のデファクトスタンダードとなる。 より良い敵意的な例を生成する方法や、新たなトレーニングデータを生成するために生成モデルを使用する方法など、データ中心の哲学を実践する最近の多くの著作では、モデル自体を振り返り、深い特徴分布の観点から敵意の強固さを洞察力のある相補性として再検討している。 本稿では,従来の対人訓練用データセットのみを用いて,最先端のパフォーマンスを得るために,分岐直交アドベレーショナルトレーニング(BORT)を提案する。 複数の直交解空間を統合するという設計思想を実践するために、推論時間を増やすことなく敵攻撃を消耗させる、単純で簡単なマルチブランチニューラルネットワークを利用する。 我々は,多重分岐モデルの各解空間を直交する対応する損失関数である分岐-直交損失をヒューリスティックに提案する。 我々は, CIFAR-10, CIFAR-100, SVHN に対する, サイズ \epsilon = 8/255 の標準有界摂動に対するアプローチを評価した。 実験により,我々の手法はトリックを伴わずにすべての最先端手法を超えることを示す。 CIFAR-10 と CIFAR-100 で67.3% と41.5% の精度を達成している(+7.23% と +9.07% の最先端化)。 また、我々のものよりもはるかに大きな規模でトレーニングセットを使用して、メソッドのパフォーマンスも向上した。 当社のすべてのモデルとコードは、https://github.com/huangd1999/bort.comで利用可能です。

Deep neural networks (DNNs) are vulnerable to adversarial examples, in which DNNs are misled to false outputs due to inputs containing imperceptible perturbations. Adversarial training, a reliable and effective method of defense, may significantly reduce the vulnerability of neural networks and becomes the de facto standard for robust learning. While many recent works practice the data-centric philosophy, such as how to generate better adversarial examples or use generative models to produce additional training data, we look back to the models themselves and revisit the adversarial robustness from the perspective of deep feature distribution as an insightful complementarity. In this paper, we propose Branch Orthogonality adveRsarial Training (BORT) to obtain state-of-the-art performance with solely the original dataset for adversarial training. To practice our design idea of integrating multiple orthogonal solution spaces, we leverage a simple and straightforward multi-branch neural network that eclipses adversarial attacks with no increase in inference time. We heuristically propose a corresponding loss function, branch-orthogonal loss, to make each solution space of the multi-branch model orthogonal. We evaluate our approach on CIFAR-10, CIFAR-100, and SVHN against \ell_{\infty} norm-bounded perturbations of size \epsilon = 8/255, respectively. Exhaustive experiments are conducted to show that our method goes beyond all state-of-the-art methods without any tricks. Compared to all methods that do not use additional data for training, our models achieve 67.3% and 41.5% robust accuracy on CIFAR-10 and CIFAR-100 (improving upon the state-of-the-art by +7.23% and +9.07%). We also outperform methods using a training set with a far larger scale than ours. All our models and codes are available online at https://github.com/huangd1999/BORT.
翻訳日:2022-08-18 12:58:37 公開日:2022-08-17
# AdaBin: 適応バイナリセットによるバイナリニューラルネットワークの改善

AdaBin: Improving Binary Neural Networks with Adaptive Binary Sets ( http://arxiv.org/abs/2208.08084v1 )

ライセンス: Link先を確認
Zhijun Tu, Xinghao Chen, Pengju Ren, Yunhe Wang(参考訳) 本稿では,重みとアクティベーションを2値に分けたBNN(Binary Neural Networks)について検討し,メモリ使用量と計算量を大幅に削減する。 現代のディープニューラルネットワークは、精度の理由から複雑なアーキテクチャを持つ洗練された設計であるため、重みとアクティベーションの分布の多様性は非常に高い。 したがって、従来の手話関数はBNNの完全精度値を効果的にバイナライズするのにうまく利用できない。 この目的のために、AdaBin と呼ばれる単純で効果的なアプローチを提案し、固定された集合(つまり${-1, +1\}$)の代わりに各層の重みと活性化の最適二進集合 $\{b_1, b_2\}$$$$$(b_1, b_2\in \mathbb{R}$) を適応的に得る。 このようにして,提案手法は異なる分布に適合し,二元化特徴の表現能力を高めることができる。 実際には、新しいバイナリ量子化関数を定義するために、1ビット値の中心位置と距離を用いる。 重みについて,二元分布の対称中心を実数値分布に整合させる等化法を提案し,そのカルバック・リーバーの発散を最小化する。 また,これら2つのアクティベーションパラメータをエンドツーエンドで共同でトレーニングするための勾配に基づく最適化手法を提案する。 ベンチマークモデルとデータセットの実験結果は、提案されたadabinが最先端のパフォーマンスを達成できることを示しています。 例えば、ResNet-18アーキテクチャを用いてImageNet上で66.4\%のTop-1精度、SSD300を用いてPASCAL VOC上で69.4mAPを得る。

This paper studies the Binary Neural Networks (BNNs) in which weights and activations are both binarized into 1-bit values, thus greatly reducing the memory usage and computational complexity. Since the modern deep neural networks are of sophisticated design with complex architecture for the accuracy reason, the diversity on distributions of weights and activations is very high. Therefore, the conventional sign function cannot be well used for effectively binarizing full-precision values in BNNs. To this end, we present a simple yet effective approach called AdaBin to adaptively obtain the optimal binary sets $\{b_1, b_2\}$ ($b_1, b_2\in \mathbb{R}$) of weights and activations for each layer instead of a fixed set (i.e., $\{-1, +1\}$). In this way, the proposed method can better fit different distributions and increase the representation ability of binarized features. In practice, we use the center position and distance of 1-bit values to define a new binary quantization function. For the weights, we propose an equalization method to align the symmetrical center of binary distribution to real-valued distribution, and minimize the Kullback-Leibler divergence of them. Meanwhile, we introduce a gradient-based optimization method to get these two parameters for activations, which are jointly trained in an end-to-end manner. Experimental results on benchmark models and datasets demonstrate that the proposed AdaBin is able to achieve state-of-the-art performance. For instance, we obtain a 66.4\% Top-1 accuracy on the ImageNet using ResNet-18 architecture, and a 69.4 mAP on PASCAL VOC using SSD300.
翻訳日:2022-08-18 12:58:04 公開日:2022-08-17
# 視覚・言語課題の意識理解

Understanding Attention for Vision-and-Language Tasks ( http://arxiv.org/abs/2208.08104v1 )

ライセンス: Link先を確認
Feiqi Cao, Soyeon Caren Han, Siqu Long, Changwei Xu, Josiah Poon(参考訳) 注意機構は視覚的特徴とテキスト的特徴のセマンティックギャップを埋めるために、視覚と言語(VL)タスク間の重要なコンポーネントとして使われてきた。 注意はVLタスクで広く用いられているが,視覚的手がかりとテキスト的手がかりのセマンティックギャップを埋める際,注意アライメントの計算能力の違いは検討されていない。 本研究では,注意スコア算出手法に着目して注意アライメントの役割を理解するための包括的分析を行い,グローバルアセスメントにおける視覚的領域とテキスト的トークンの意義を実際にどのように表現しているかを検証した。 また,視覚的質問応答,テキスト・ツー・イメージ生成,テキスト・アンド・イメージマッチング(文と画像検索の両方)を含む3種類のVLタスクにおいて,注目スコアの計算機構がより(あるいはより少ない)解釈可能であり,モデル性能に影響を及ぼす可能性のある条件も分析する。 我々の分析は、VLタスクのトレーニングフェーズで適用された各アテンションアライメントスコア計算の重要性についての有用な洞察を提供し、注意に基づくクロスモーダルモデルや/または事前訓練モデルで一般的に無視される。

Attention mechanism has been used as an important component across Vision-and-Language(VL) tasks in order to bridge the semantic gap between visual and textual features. While attention has been widely used in VL tasks, it has not been examined the capability of different attention alignment calculation in bridging the semantic gap between visual and textual clues. In this research, we conduct a comprehensive analysis on understanding the role of attention alignment by looking into the attention score calculation methods and check how it actually represents the visual region's and textual token's significance for the global assessment. We also analyse the conditions which attention score calculation mechanism would be more (or less) interpretable, and which may impact the model performance on three different VL tasks, including visual question answering, text-to-image generation, text-and-image matching (both sentence and image retrieval). Our analysis is the first of its kind and provides useful insights of the importance of each attention alignment score calculation when applied at the training phase of VL tasks, commonly ignored in attention-based cross modal models, and/or pretrained models.
翻訳日:2022-08-18 12:57:30 公開日:2022-08-17
# 顔の表情認識のための識別と姿勢の遠ざかる

Disentangling Identity and Pose for Facial Expression Recognition ( http://arxiv.org/abs/2208.08106v1 )

ライセンス: Link先を確認
Jing Jiang and Weihong Deng(参考訳) 表情認識(FER)は、表情成分が同一性や頭部ポーズなど他の無関係な要因と常に絡み合っているため、難しい問題である。 本研究では,より識別的な特徴表現を学習するために,識別モデルを提案し,不整形表情認識(IPD-FER)モデルを提案する。 我々は、全体像をアイデンティティ、ポーズ、表現の組み合わせと見なしている。 これら3つのコンポーネントは異なるエンコーダでエンコードされる。 アイデンティティエンコーダでは、トレーニング中に訓練済みの顔認識モデルを使用し固定することにより、以前の作業における特定の表情訓練データに対する制限を緩和し、その非絡み合いを現場のデータセットで実行できるようにする。 同時に、ポーズと式エンコーダは対応するラベルに最適化される。 アイデンティティとポーズの特徴を組み合わせることで、入力された個人の中立な顔はデコーダによって生成されるべきである。 表現特徴が追加されると、入力画像が再構成される。 同一個体の合成中性画像と発現画像の差異を比較することにより、表現成分を同一性とポーズからさらに分離する。 実験結果から,本手法が実験室内および実験室内データベース上で有効であることを確認した。

Facial expression recognition (FER) is a challenging problem because the expression component is always entangled with other irrelevant factors, such as identity and head pose. In this work, we propose an identity and pose disentangled facial expression recognition (IPD-FER) model to learn more discriminative feature representation. We regard the holistic facial representation as the combination of identity, pose and expression. These three components are encoded with different encoders. For identity encoder, a well pre-trained face recognition model is utilized and fixed during training, which alleviates the restriction on specific expression training data in previous works and makes the disentanglement practicable on in-the-wild datasets. At the same time, the pose and expression encoder are optimized with corresponding labels. Combining identity and pose feature, a neutral face of input individual should be generated by the decoder. When expression feature is added, the input image should be reconstructed. By comparing the difference between synthesized neutral and expressional images of the same individual, the expression component is further disentangled from identity and pose. Experimental results verify the effectiveness of our method on both lab-controlled and in-the-wild databases and we achieve state-of-the-art recognition performance.
翻訳日:2022-08-18 12:57:08 公開日:2022-08-17
# 変形可能な畳み込みによる手書き文字認識の現代化

Boosting Modern and Historical Handwritten Text Recognition with Deformable Convolutions ( http://arxiv.org/abs/2208.08109v1 )

ライセンス: Link先を確認
Silvia Cascianelli, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara(参考訳) 自由レイアウトページにおける手書き文字認識(HTR)は、手書き文書のデジタル化とコンテンツの再利用に関連性のある画像理解タスクである。 文字スタイルの変化とページ品質の低下により、歴史的な文書を扱う場合、タスクはさらに困難になる。 最先端のHTRアプローチは通常、視覚的特徴抽出のための畳み込みニューラルネットワークによるシーケンスモデリングのための2つの繰り返し構造を持つ。 畳み込みカーネルは、固定格子上に定義され、入力画像上を移動しながら、全ての入力画素に独立に焦点を合わせているため、手書き文字が同じ文書内でも形状、スケール、方向が異なり、インク画素が背景画素よりも関連性があるという事実を無視している。 これらの特定のhtr問題に対処するため,我々は,手元の入力に応じて変形し,テキストの幾何学的変化にうまく適応できる変形可能な畳み込みを導入することを提案する。 変形可能な2つのアーキテクチャを設計し、近代的および歴史的両方のデータセットに対して広範な実験を行う。 HTRタスクに対する変形可能な畳み込みの適合性を検証する実験結果が得られた。

Handwritten Text Recognition (HTR) in free-layout pages is a challenging image understanding task that can provide a relevant boost to the digitization of handwritten documents and reuse of their content. The task becomes even more challenging when dealing with historical documents due to the variability of the writing style and degradation of the page quality. State-of-the-art HTR approaches typically couple recurrent structures for sequence modeling with Convolutional Neural Networks for visual feature extraction. Since convolutional kernels are defined on fixed grids and focus on all input pixels independently while moving over the input image, this strategy disregards the fact that handwritten characters can vary in shape, scale, and orientation even within the same document and that the ink pixels are more relevant than the background ones. To cope with these specific HTR difficulties, we propose to adopt deformable convolutions, which can deform depending on the input at hand and better adapt to the geometric variations of the text. We design two deformable architectures and conduct extensive experiments on both modern and historical datasets. Experimental results confirm the suitability of deformable convolutions for the HTR task.
翻訳日:2022-08-18 12:56:49 公開日:2022-08-17
# 層間グラフ融合モジュールを用いたデュアルタスクネットワークによる道路検出

Road detection via a dual-task network based on cross-layer graph fusion modules ( http://arxiv.org/abs/2208.08116v1 )

ライセンス: Link先を確認
Zican Hu, Wurui Shi, Hongkun Liu, Xueyun Chen(参考訳) リモートセンシング画像に基づく道路検出は、インテリジェントな交通管理において非常に重要である。 主要道路検出手法の性能は, 抽出された特徴量によって決定されるが, 異なる種類の特徴と層間接続を融合させることにより, 豊かさと頑健性を高めることができる。 しかし、既存の主流モデルフレームワークの機能はシングルタスクのトレーニングによって同じレイヤでよく似ており、従来のクロスレイヤの融合方法は効率的効果を得るにはあまりにも単純すぎるため、結合や追加以外の複雑な融合方法も検討すべきである。 本稿では,道路検出用デュアルタスクネットワーク(DTnet)とクロス層グラフ融合モジュール(CGM)を提案する。このDTnetは,道路面積とエッジ検出用の2つの並列分岐で構成され,FBM(Function Bridge Module)を介して2つの分岐間の特徴を融合させることにより特徴の多様性を向上させる。 CGMは複雑な特徴ストリームグラフにより層間融合効果を改善し、4つのグラフパターンを評価する。 3つの公開データセットの実験結果から,本手法が最終検出結果を効果的に改善することを示す。

Road detection based on remote sensing images is of great significance to intelligent traffic management. The performances of the mainstream road detection methods are mainly determined by their extracted features, whose richness and robustness can be enhanced by fusing features of different types and cross-layer connections. However, the features in the existing mainstream model frameworks are often similar in the same layer by the single-task training, and the traditional cross-layer fusion ways are too simple to obtain an efficient effect, so more complex fusion ways besides concatenation and addition deserve to be explored. Aiming at the above defects, we propose a dual-task network (DTnet) for road detection and cross-layer graph fusion module (CGM): the DTnet consists of two parallel branches for road area and edge detection, respectively, while enhancing the feature diversity by fusing features between two branches through our designed feature bridge modules (FBM). The CGM improves the cross-layer fusion effect by a complex feature stream graph, and four graph patterns are evaluated. Experimental results on three public datasets demonstrate that our method effectively improves the final detection result.
翻訳日:2022-08-18 12:56:29 公開日:2022-08-17
# 音声-視覚優先による超大規模対話型ビデオのアップサンプリング

Extreme-scale Talking-Face Video Upsampling with Audio-Visual Priors ( http://arxiv.org/abs/2208.08118v1 )

ライセンス: Link先を確認
Sindhu B Hegde, Rudrabha Mukhopadhyay, Vinay P Namboodiri, C. V. Jawahar(参考訳) そこで本稿では,8,800円の映像から何が得られるのかという興味深い疑問を提起する。 驚いたことに、かなり多くのことが判明した。 この$8\times8$のビデオをオーディオと画像のプリエントで処理すると、全長$256\times256$のビデオが得られる。 超低解像度入力の32\times$スケーリングを、新しいオーディオ・ビジュアル・アップサンプリングネットワークを使って実現します。 オーディオ先行は、要素的な顔の詳細と正確な唇形状を復元するのに役立ち、単一の高解像度のターゲット識別画像は、よりリッチな外観の詳細を提供する。 私たちのアプローチはエンドツーエンドのマルチステージフレームワークです。 第1段階は粗い中間出力ビデオを生成し、それによって単一のターゲットIDイメージをアニメーション化し、現実的で正確で高品質な出力を生成する。 従来の超解像法と比較して,本手法は単純で,非常に良好(FIDスコアが8ドル以上向上)である。 また,提案手法を音声ビデオ圧縮に拡張し,従来の最先端技術よりも3.5\times$のビット/ピクセルの改善が得られることを示す。 本ネットワークから得られた結果は, 広範なアブレーション実験(紙および補足材料)により徹底的に解析された。 また、ウェブサイト上でコードやモデルと共にデモビデオを提供しています。

In this paper, we explore an interesting question of what can be obtained from an $8\times8$ pixel video sequence. Surprisingly, it turns out to be quite a lot. We show that when we process this $8\times8$ video with the right set of audio and image priors, we can obtain a full-length, $256\times256$ video. We achieve this $32\times$ scaling of an extremely low-resolution input using our novel audio-visual upsampling network. The audio prior helps to recover the elemental facial details and precise lip shapes and a single high-resolution target identity image prior provides us with rich appearance details. Our approach is an end-to-end multi-stage framework. The first stage produces a coarse intermediate output video that can be then used to animate single target identity image and generate realistic, accurate and high-quality outputs. Our approach is simple and performs exceedingly well (an $8\times$ improvement in FID score) compared to previous super-resolution methods. We also extend our model to talking-face video compression, and show that we obtain a $3.5\times$ improvement in terms of bits/pixel over the previous state-of-the-art. The results from our network are thoroughly analyzed through extensive ablation experiments (in the paper and supplementary material). We also provide the demo video along with code and models on our website: \url{http://cvit.iiit.ac.in/research/projects/cvit-projects/talking-face-video-upsampling}.
翻訳日:2022-08-18 12:56:08 公開日:2022-08-17
# 言語モデル適応の視覚的比較

Visual Comparison of Language Model Adaptation ( http://arxiv.org/abs/2208.08176v1 )

ライセンス: Link先を確認
Rita Sevastjanova, Eren Cakmak, Shauli Ravfogel, Ryan Cotterell, and Mennatallah El-Assady(参考訳) ニューラルネットワークモデルは広く使われているが、そのモデルパラメータは、時間とリソース消費であるアプリケーションの特定のドメインとタスクに適応する必要がある。 このように、アダプタはモデル適応の軽量な代替手段として最近導入された。 それらは、訓練時間と単純なパラメータ構成の少ない、タスク固有のパラメータの小さなセットから構成される。 アダプタのトレーニングと構成の単純さは、アダプタプロパティの概要を維持し、生成された埋め込み空間を効果的に比較するなど、新しい課題と共にくる。 開発者がこれらの課題を克服するのを助けるために、私たちは2倍のコントリビューションを提供しています。 まず,nlp研究者との密接なコラボレーションにより,アダプタ評価を支援するアプローチの要件分析を行い,内在的(すなわち類似性に基づく)と外在的(すなわち予測に基づく)な説明方法の両方の必要性を検出した。 第2に、収集された要求を動機として、アダプタ特性の比較を可能にするフレキシブルな視覚分析ワークスペースを設計した。 本稿では,インタラクティブな視覚的説明手法のいくつかの設計イテレーションと代替案について論じる。 私たちの比較可視化では, 多様な概念(人名, 人格など)に対して, 適応した組込みベクトルと予測結果の差異を示す。 ケーススタディを通じて作業空間を評価し,例えば,文脈0(脱コンテクスチュア化)埋め込みに基づく言語脱バイアスタスクを訓練したアダプタが,単語(国など性別に依存しない単語でさえ)が男性代名詞よりも女性に類似する新しいタイプの偏見を導入することを示す。 これらはコンテキスト0埋め込みの成果物であることを示す。

Neural language models are widely used; however, their model parameters often need to be adapted to the specific domains and tasks of an application, which is time- and resource-consuming. Thus, adapters have recently been introduced as a lightweight alternative for model adaptation. They consist of a small set of task-specific parameters with a reduced training time and simple parameter composition. The simplicity of adapter training and composition comes along with new challenges, such as maintaining an overview of adapter properties and effectively comparing their produced embedding spaces. To help developers overcome these challenges, we provide a twofold contribution. First, in close collaboration with NLP researchers, we conducted a requirement analysis for an approach supporting adapter evaluation and detected, among others, the need for both intrinsic (i.e., embedding similarity-based) and extrinsic (i.e., prediction-based) explanation methods. Second, motivated by the gathered requirements, we designed a flexible visual analytics workspace that enables the comparison of adapter properties. In this paper, we discuss several design iterations and alternatives for interactive, comparative visual explanation methods. Our comparative visualizations show the differences in the adapted embedding vectors and prediction outcomes for diverse human-interpretable concepts (e.g., person names, human qualities). We evaluate our workspace through case studies and show that, for instance, an adapter trained on the language debiasing task according to context-0 (decontextualized) embeddings introduces a new type of bias where words (even gender-independent words such as countries) become more similar to female than male pronouns. We demonstrate that these are artifacts of context-0 embeddings.
翻訳日:2022-08-18 12:53:04 公開日:2022-08-17
# ODformer: クロスアプリケーションシナリオに対する時系列行列予測のための空間時間変換器

ODformer: Spatial-Temporal Transformers for Long Sequence Origin-Destination Matrix Forecasting Against Cross Application Scenario ( http://arxiv.org/abs/2208.08218v1 )

ライセンス: Link先を確認
Jin Huang, Bosong Huang, Weihao Yu, Jing Xiao, Ruzhong Xie, Ke Ruan(参考訳) Origin-Destination (OD) 行列は、一対のOD領域間の方向流データを記録する。 行列における複雑な時空間依存性により、OD行列予測(ODMF)問題は難解であるだけでなく、非自明である。 しかし、関連する手法の多くは、特定のアプリケーションシナリオにおける非常に短いシーケンス時系列予測のために設計されており、シナリオの変動や実用的なアプリケーションの長さの予測の要件を満たせない。 そこで本研究では,2つの特性を有する変圧器ライクなモデルであるodformerを提案する。 (i)同じ起源のODペア間の特別な空間依存性をキャプチャする新しいODアテンション機構は、OD領域間の空間依存性をキャプチャする2D-GCNと組み合わせた後に、アプリケーション間シナリオを予測するモデルの能力を大幅に向上させる。 2) 異なるシナリオの周期的差異に適応しつつ, 時系列OD行列列を効果的に予測する周期的自己注意。 3つのアプリケーション背景(トランスポートトラフィック、IPバックボーンネットワークトラフィック、クラウドフロー)において、我々の手法は最先端の手法よりも優れていることを示す。

Origin-Destination (OD) matrices record directional flow data between pairs of OD regions. The intricate spatiotemporal dependency in the matrices makes the OD matrix forecasting (ODMF) problem not only intractable but also non-trivial. However, most of the related methods are designed for very short sequence time series forecasting in specific application scenarios, which cannot meet the requirements of the variation in scenarios and forecasting length of practical applications. To address these issues, we propose a Transformer-like model named ODformer, with two salient characteristics: (i) the novel OD Attention mechanism, which captures special spatial dependencies between OD pairs of the same origin (destination), greatly improves the ability of the model to predict cross-application scenarios after combining with 2D-GCN that captures spatial dependencies between OD regions. (ii) a PeriodSparse Self-attention that effectively forecasts long sequence OD matrix series while adapting to the periodic differences in different scenarios. Generous experiments in three application backgrounds (i.e., transportation traffic, IP backbone network traffic, crowd flow) show our method outperforms the state-of-the-art methods.
翻訳日:2022-08-18 12:52:37 公開日:2022-08-17
# bic: テキスト-グラフインタラクションとセマンティック一貫性を備えたtwitterボット検出

BIC: Twitter Bot Detection with Text-Graph Interaction and Semantic Consistency ( http://arxiv.org/abs/2208.08320v1 )

ライセンス: Link先を確認
Zhenyu Lei, Herun Wan, Wenqian Zhang, Shangbin Feng, Zilong Chen, Qinghua Zheng, Minnan Luo(参考訳) twitterボット検出は重要かつ有意義なタスクである。 既存のテキストベースの手法は、ユーザのツイート内容を深く分析し、高いパフォーマンスを実現する。 しかし、新しいtwitterボットは、本物のユーザーのツイートを盗み、悪意のあるコンテンツを良質なツイートで希釈することで、これらの検出を回避した。 これらの新しいボットは意味的不整合によって特徴づけられる。 さらに、Twitterグラフ構造を利用した手法が最近登場し、大きな競争力を示している。 しかし、テキストとグラフのモダリティを深く融合させ、両者の利点を生かして、2つのモダリティの相対的重要性を学ぶ方法はほとんどない。 本稿では,テキストとグラフのモダリティを深くインタラクティブにし,ツイートの意味的矛盾を検出するBICという新しいモデルを提案する。 具体的には、テキスト伝搬モジュールと、それぞれテキストとグラフ構造上でボット検出を行うグラフ伝搬モジュールと、両者を対話させる有効なテキストグラフ対話モジュールとを含む。 さらに、BICには、ツイートからセマンティック一貫性情報を学ぶためのセマンティック一貫性検出モジュールが含まれている。 大規模な実験により、当社のフレームワークは、包括的なTwitterボットベンチマークの競争ベースラインよりも優れています。 また,提案手法の有効性と意味的整合性を検出する。

Twitter bot detection is an important and meaningful task. Existing text-based methods can deeply analyze user tweet content, achieving high performance. However, novel Twitter bots evade these detections by stealing genuine users' tweets and diluting malicious content with benign tweets. These novel bots are proposed to be characterized by semantic inconsistency. In addition, methods leveraging Twitter graph structure are recently emerging, showing great competitiveness. However, hardly a method has made text and graph modality deeply fused and interacted to leverage both advantages and learn the relative importance of the two modalities. In this paper, we propose a novel model named BIC that makes the text and graph modalities deeply interactive and detects tweet semantic inconsistency. Specifically, BIC contains a text propagation module, a graph propagation module to conduct bot detection respectively on text and graph structure, and a proven effective text-graph interactive module to make the two interact. Besides, BIC contains a semantic consistency detection module to learn semantic consistency information from tweets. Extensive experiments demonstrate that our framework outperforms competitive baselines on a comprehensive Twitter bot benchmark. We also prove the effectiveness of the proposed interaction and semantic consistency detection.
翻訳日:2022-08-18 12:52:13 公開日:2022-08-17
# ソース間スチル化によるクロスドメインFew-Shot分類

Cross-Domain Few-Shot Classification via Inter-Source Stylization ( http://arxiv.org/abs/2208.08015v1 )

ライセンス: Link先を確認
Huali Xu, Li Liu(参考訳) Cross-Domain Few Shot Classification (CDFSC)は、教師付き補助データセットから学んだ事前知識を活用して、教師付き情報が限られているターゲットタスクを解決する。 これらのデータセット間のドメインシフトのため、これは難しい。 MDA(Multisource Domain Adaptation)に触発された最近の研究は、パフォーマンスを改善するために複数のドメインを導入している。 しかし、一方、彼らは、自然なイメージでベンチマークでのみ評価し、他方で、ソースドメインでも多くのアノテーションが必要であることは、コストがかかる可能性がある。 上記の問題に対処するため,本論文では,1つのソースドメインのみがラベル付けされ,残りのソースドメインはラベル付けされていないという,新しいMultisource CDFSC設定(MCDFSC)について検討する。 これらの情報源は異なる出願物から来ているため、自然画像だけではない。 本稿では,cnnのインダクティブバイアスを考慮した新しいmcdfsc設定のためのソース間スタイライゼーションネットワーク (issnet) を提案する。 ラベル付きソースのスタイルをラベル付きソースに転送し、ラベル付きソースの配布を拡大し、モデル一般化能力をさらに向上する。 8つのターゲットデータセットの実験では、ISSNetは異なるドメインによるパフォーマンス劣化を効果的に抑制している。

Cross-Domain Few Shot Classification (CDFSC) leverages prior knowledge learned from a supervised auxiliary dataset to solve a target task with limited supervised information available, where the auxiliary and target datasets come from the different domains. It is challenging due to the domain shift between these datasets. Inspired by Multisource Domain Adaptation (MDA), the recent works introduce the multiple domains to improve the performance. However, they, on the one hand, evaluate only on the benchmark with natural images, and on the other hand, they need many annotations even in the source domains can be costly. To address the above mentioned issues, this paper explore a new Multisource CDFSC setting (MCDFSC) where only one source domain is fully labeled while the rest source domains remain unlabeled. These sources are from different fileds, means they are not only natural images. Considering the inductive bias of CNNs, this paper proposed Inter-Source stylization network (ISSNet) for this new MCDFSC setting. It transfers the styles of unlabeled sources to labeled source, which expands the distribution of labeled source and further improves the model generalization ability. Experiments on 8 target datasets demonstrate ISSNet effectively suppresses the performance degradation caused by different domains.
翻訳日:2022-08-18 12:50:59 公開日:2022-08-17
# unilayout: グラフィックレイアウト生成のための統一シーケンス列変換器

UniLayout: Taming Unified Sequence-to-Sequence Transformers for Graphic Layout Generation ( http://arxiv.org/abs/2208.08037v1 )

ライセンス: Link先を確認
Zhaoyun Jiang, Huayu Deng, Zhongkai Wu, Jiaqi Guo, Shizhao Sun, Vuksan Mijovic, Zijiang Yang, Jian-Guang Lou, Dongmei Zhang(参考訳) 様々なユーザニーズを満たすため,近年,グラフィックレイアウト生成のサブタスクが深く研究されている。 既存の研究は通常、様々な入力出力形式、専用モデルアーキテクチャ、異なる学習方法を備えたタスク固有の手法を提案する。 しかし、これらの専門的なアプローチは、目に見えないサブタスクへの適応を困難にし、異なるサブタスク間の知識共有を妨げるとともに、汎用モデルを考案する傾向に反する。 本稿では,グラフィックレイアウト生成のための異なるサブタスクを統一的に処理するunilayoutを提案する。 まず、トークンのシーケンスとしてサブタスクの多様な入力と出力を均一に表現する。 そして、統一シーケンス形式に基づいて、異なるサブタスクに対してトランスフォーマーを持つ同一エンコーダデコーダアーキテクチャを自然に活用する。 さらに、上記の2種類の統合に基づき、全てのサブタスクを同時にサポートする1つのモデルをさらに開発する。 2つの公開データセットの実験では、UniLayoutは単純なものの、以前のタスク固有のメソッドよりも大幅に優れていた。

To satisfy various user needs, different subtasks of graphic layout generation have been explored intensively in recent years. Existing studies usually propose task-specific methods with diverse input-output formats, dedicated model architectures, and different learning methods. However, those specialized approaches make the adaption to unseen subtasks difficult, hinder the knowledge sharing between different subtasks, and are contrary to the trend of devising general-purpose models. In this work, we propose UniLayout, which handles different subtasks for graphic layout generation in a unified manner. First, we uniformly represent diverse inputs and outputs of subtasks as the sequences of tokens. Then, based on the unified sequence format, we naturally leverage an identical encoder-decoder architecture with Transformers for different subtasks. Moreover, based on the above two kinds of unification, we further develop a single model that supports all subtasks concurrently. Experiments on two public datasets demonstrate that while simple, UniLayout significantly outperforms the previous task-specific methods.
翻訳日:2022-08-18 12:50:38 公開日:2022-08-17
# intertrack: 3次元マルチオブジェクトトラッキングのためのインタラクショントランスフォーマー

InterTrack: Interaction Transformer for 3D Multi-Object Tracking ( http://arxiv.org/abs/2208.08041v1 )

ライセンス: Link先を確認
John Willes, Cody Reading, Steven L. Waslander(参考訳) 3Dマルチオブジェクトトラッキング(MOT)は、動的環境下での良好な動作計画を実行するために必要な自動運転車にとって重要な問題である。 特に密集したシーンでは、既存のトラックを新しい検出に関連付けることは依然として困難であり、既存のシステムは重要な文脈情報を省略する傾向がある。 提案手法であるInterTrackでは、3次元MOTのためのInteraction Transformerを導入し、データアソシエーションのための識別オブジェクト表現を生成する。 各トラックと検出のための状態と形状の特徴を抽出し,注意を通してグローバル情報を効率的に集約する。 次に,各トラック/検出特徴ペアで学習回帰を行い,親和性を推定し,ロバストな2段階データアソシエーションとトラック管理アプローチを用いて最終トラックを生成する。 我々はnuScenes 3D MOTベンチマークのアプローチを検証し、特に小さな物理サイズとクラスタオブジェクトを持つクラスにおいて、大幅な改善を観察する。 提出時点では、InterTrackはCenterPoint検出手法の中でAMOTA全体で1位である。

3D multi-object tracking (MOT) is a key problem for autonomous vehicles, required to perform well-informed motion planning in dynamic environments. Particularly for densely occupied scenes, associating existing tracks to new detections remains challenging as existing systems tend to omit critical contextual information. Our proposed solution, InterTrack, introduces the Interaction Transformer for 3D MOT to generate discriminative object representations for data association. We extract state and shape features for each track and detection, and efficiently aggregate global information via attention. We then perform a learned regression on each track/detection feature pair to estimate affinities, and use a robust two-stage data association and track management approach to produce the final tracks. We validate our approach on the nuScenes 3D MOT benchmark, where we observe significant improvements, particularly on classes with small physical sizes and clustered objects. As of submission, InterTrack ranks 1st in overall AMOTA among methods using CenterPoint detections.
翻訳日:2022-08-18 12:50:21 公開日:2022-08-17
# 自己教師付きおよび半教師付きコンピュータビジョンを用いた空中リモートセンシング画像からの都市特徴解析

Urban feature analysis from aerial remote sensing imagery using self-supervised and semi-supervised computer vision ( http://arxiv.org/abs/2208.08047v1 )

ライセンス: Link先を確認
Sachith Seneviratne, Jasper S. Wijnands, Kerry Nice, Haifeng Zhao, Branislava Godic, Suzanne Mavoa, Rajith Vidanaarachchi, Mark Stevenson, Leandro Garcia, Ruth F. Hunter and Jason Thompson(参考訳) コンピュータビジョンを用いたオーバーヘッド画像の解析は学術文献で注目されている問題である。 この領域で運用するほとんどの技術は高度に専門化されており、大きなデータセットの高価な手動アノテーションを必要とする。 これらの問題は、より汎用的なフレームワークの開発を通じて解決され、表現学習の進歩により、ラベル付きデータによる新しいカテゴリの画像分析の柔軟性が向上する。 まず、運動量コントラスト機構に基づいてラベルなしの航空画像データセットのロバスト表現を作成した。 その後、200以上のラベル付き画像で正確な分類器を構築することで、異なるタスクに特化している。 6千万枚の未ラベル画像から10年間の都市インフラ進化の低レベル検出に成功したことは, 定量的都市研究を推し進めるための我々のアプローチの大きな可能性を実証している。

Analysis of overhead imagery using computer vision is a problem that has received considerable attention in academic literature. Most techniques that operate in this space are both highly specialised and require expensive manual annotation of large datasets. These problems are addressed here through the development of a more generic framework, incorporating advances in representation learning which allows for more flexibility in analysing new categories of imagery with limited labeled data. First, a robust representation of an unlabeled aerial imagery dataset was created based on the momentum contrast mechanism. This was subsequently specialised for different tasks by building accurate classifiers with as few as 200 labeled images. The successful low-level detection of urban infrastructure evolution over a 10-year period from 60 million unlabeled images, exemplifies the substantial potential of our approach to advance quantitative urban research.
翻訳日:2022-08-18 12:50:04 公開日:2022-08-17
# システム構成性をテストするためのトランスダクションの学習

Learning Transductions to Test Systematic Compositionality ( http://arxiv.org/abs/2208.08195v1 )

ライセンス: Link先を確認
Josef Valvoda, Naomi Saphra, Jonathan Rawski, Ryan Cotterell, Adina Williams(参考訳) 既知の原始概念をより大きな新しい組み合わせに再結合することは、人間の認知能力である。 NLPにおける大きなニューラルモデルが、データから学習しながらこの能力を獲得するかどうかは、オープンな疑問である。 本稿では,形式言語の観点から,この問題を考察する。 決定論的有限状態トランスデューサを用いて、構成性を管理する制御可能な特性を持つ非有界な数のデータセットを作成する。 多くのトランスデューサをランダムにサンプリングすることにより、その特性(状態数、アルファベットサイズ、遷移数など)のどれがニューラルネットワークによる構成関係の学習に寄与するかを探索する。 一般に、モデルは完全に関係を学習するか全く学習しないかが分かる。 キーとなるのは移行カバレッジで、移行毎に400例という、ソフトラーナビリティの制限を設定します。

Recombining known primitive concepts into larger novel combinations is a quintessentially human cognitive capability. Whether large neural models in NLP acquire this ability while learning from data is an open question. In this paper, we look at this problem from the perspective of formal languages. We use deterministic finite-state transducers to make an unbounded number of datasets with controllable properties governing compositionality. By randomly sampling over many transducers, we explore which of their properties (number of states, alphabet size, number of transitions etc.) contribute to learnability of a compositional relation by a neural network. In general, we find that the models either learn the relations completely or not at all. The key is transition coverage, setting a soft learnability limit at 400 examples per transition.
翻訳日:2022-08-18 12:47:12 公開日:2022-08-17
# セマンティクスブロックに基づくファセット認識型非教師なし要約フレームワーク

An Efficient Coarse-to-Fine Facet-Aware Unsupervised Summarization Framework based on Semantic Blocks ( http://arxiv.org/abs/2208.08253v1 )

ライセンス: Link先を確認
Xinnian Liang, Jing Li, Shuangzhi Wu, Jiali Zeng, Yufan Jiang, Mu Li, Zhoujun Li(参考訳) 教師なし要約法は、事前学習された言語モデルからの表現を組み込むことで驚くべき結果を得た。 しかし,既存の手法では,入力文書が極めて長い場合に,効率性や有効性を考慮できない。 この問題に対処するため,本論文では,意味ブロックに基づく教師なし長文要約のための効果的なC2F-FARフレームワークを提案する。 意味ブロックは、同じファセットを記述する文書の連続した文を指す。 具体的には,一段階ランキング法を階層的多粒度二段階ランキングに変換することでこの問題に対処した。 粗いレベルでは、文書をファセット対応のセマンティックブロックに分割し、無意味なブロックをフィルタリングする新しいセグメントアルゴリズムを提案する。 詳細な段階において,各ブロックで有能な文を選択し,選択した文から最終要約を抽出する。 我々は、gov-report、billsum、arxiv、pubmedという4つの長い文書要約データセットでフレームワークを評価した。 我々のC2F-FARは、Gov-ReportとBillSumの非教師なしの要約結果が得られる。 さらに,従来の手法の4~28倍の高速化を実現した。 \footnote{\url{https://github.com/xnliang98/c2f-far}}

Unsupervised summarization methods have achieved remarkable results by incorporating representations from pre-trained language models. However, existing methods fail to consider efficiency and effectiveness at the same time when the input document is extremely long. To tackle this problem, in this paper, we proposed an efficient Coarse-to-Fine Facet-Aware Ranking (C2F-FAR) framework for unsupervised long document summarization, which is based on the semantic block. The semantic block refers to continuous sentences in the document that describe the same facet. Specifically, we address this problem by converting the one-step ranking method into the hierarchical multi-granularity two-stage ranking. In the coarse-level stage, we propose a new segment algorithm to split the document into facet-aware semantic blocks and then filter insignificant blocks. In the fine-level stage, we select salient sentences in each block and then extract the final summary from selected sentences. We evaluate our framework on four long document summarization datasets: Gov-Report, BillSum, arXiv, and PubMed. Our C2F-FAR can achieve new state-of-the-art unsupervised summarization results on Gov-Report and BillSum. In addition, our method speeds up 4-28 times more than previous methods.\footnote{\url{https://github.com/xnliang98/c2f-far}}
翻訳日:2022-08-18 12:46:59 公開日:2022-08-17
# ターゲット指向オピニオンワード抽出のためのラベルなしデータの抽出

Exploiting Unlabeled Data for Target-Oriented Opinion Words Extraction ( http://arxiv.org/abs/2208.08280v1 )

ライセンス: Link先を確認
Yidong Wang, Hao Wu, Ao Liu, Wenxin Hou, Zhen Wu, Jindong Wang, Takahiro Shinozaki, Manabu Okumura, Yue Zhang(参考訳) ToWE(Target-oriented Opinion Words extract)は、ある意見対象の対応する意見語を文から抽出することを目的とした、きめ細かい感情分析タスクである。 近年,この課題に対して深層学習のアプローチが顕著に進展している。 それでもTOWEタスクは、高価なデータアノテーションプロセスのため、トレーニングデータの不足に悩まされている。 ラベル付きデータはテストデータとトレーニングデータの間の分散シフトのリスクを高める。 本稿では,多変量分布シフトに対するモデルの露出を増大させることにより,膨大なラベルのないデータを利用してリスクを低減することを提案する。 具体的には,無ラベルデータを利用した新しい多粒度一貫性規則化(mgcr)法を提案し,異なる粒度でノイズデータをフィルタするtowe専用のフィルタを2つ設計する。 4つのTOWEベンチマークデータセットの大規模な実験結果は、現在の最先端手法と比較してMGCRの優位性を示している。 奥行き解析は、異なる粒度フィルタの有効性も示している。 私たちのコードはhttps://github.com/TOWESSL/TOWESSLで利用可能です。

Target-oriented Opinion Words Extraction (TOWE) is a fine-grained sentiment analysis task that aims to extract the corresponding opinion words of a given opinion target from the sentence. Recently, deep learning approaches have made remarkable progress on this task. Nevertheless, the TOWE task still suffers from the scarcity of training data due to the expensive data annotation process. Limited labeled data increase the risk of distribution shift between test data and training data. In this paper, we propose exploiting massive unlabeled data to reduce the risk by increasing the exposure of the model to varying distribution shifts. Specifically, we propose a novel Multi-Grained Consistency Regularization (MGCR) method to make use of unlabeled data and design two filters specifically for TOWE to filter noisy data at different granularity. Extensive experimental results on four TOWE benchmark datasets indicate the superiority of MGCR compared with current state-of-the-art methods. The in-depth analysis also demonstrates the effectiveness of the different-granularity filters. Our codes are available at https://github.com/TOWESSL/TOWESSL.
翻訳日:2022-08-18 12:46:38 公開日:2022-08-17
# テキストのためのニューラル埋め込み

Neural Embeddings for Text ( http://arxiv.org/abs/2208.08386v1 )

ライセンス: Link先を確認
Oleg Vasilyev, John Bohannon(参考訳) 本稿では,意味的意味を深く表現する自然言語テキストの埋め込みについて提案する。 標準テキスト埋め込みは、事前訓練された言語モデルのベクトル出力を使用する。 この方法では、言語モデルにテキストから学習させ、その脳を文字通り選択させ、モデルのニューロンの実際の重みを取ってベクトルを生成する。 私たちはこのテキストの表現を神経埋め込みと呼んでいる。 この手法はテキストや言語モデルを超えて一般化するが、自然言語処理におけるその特性を最初に探求する。 ニューラルネットワークの埋め込みとGPT文(SGPT)の埋め込みを比較した。 我々は、神経組込みがはるかに小さなモデルで同等のパフォーマンスを達成し、エラーが異なることを観察する。

We propose a new kind of embedding for natural language text that deeply represents semantic meaning. Standard text embeddings use the vector output of a pretrained language model. In our method, we let a language model learn from the text and then literally pick its brain, taking the actual weights of the model's neurons to generate a vector. We call this representation of the text a neural embedding. The technique may generalize beyond text and language models, but we first explore its properties for natural language processing. We compare neural embeddings with GPT sentence (SGPT) embeddings on several datasets. We observe that neural embeddings achieve comparable performance with a far smaller model, and the errors are different.
翻訳日:2022-08-18 12:46:22 公開日:2022-08-17
# 事前学習言語モデルを用いた臨床物語の医学的変化の抽出

Extracting Medication Changes in Clinical Narratives using Pre-trained Language Models ( http://arxiv.org/abs/2208.08417v1 )

ライセンス: Link先を確認
Giridhar Kaushik Ramachandran, Kevin Lybarger, Yaya Liu, Diwakar Mahajan, Jennifer J. Liang, Ching-Huei Tsou, Meliha Yetisgen, \"Ozlem Uzuner(参考訳) 医療提供者が適切な患者ケアを提供するためには、患者のタイムライン内での薬物変化を含む患者薬の正確かつ詳細な説明が不可欠である。 医療提供者または患者自体が患者薬剤の変更を開始することがある。 薬効の変化には、処方薬や関連する服薬の修正など、多くの形態がある。 これらの変化は、患者の全体の健康状態や、現在のケアにつながる根拠に関する情報を提供する。 将来のケアは、患者の結果の状態に基づいて構築される。 本研究は,フリーテキスト臨床ノートから薬物変化情報の自動抽出について検討する。 CMED(Contextual Medication Event Dataset)は、変化の種類(開始、停止、増加、など)、変化の開始者、時間性、変化の可能性、否定など、複数の変化に関連する属性を通じて薬物の変化を特徴付ける注釈付き臨床ノートのコーパスである。 CMEDを用いて臨床テキスト中の薬剤の言及を同定し,注釈医薬品の変化特性を解消する3つの新しい高性能BERTシステムを提案する。 提案するアーキテクチャは,cmedを探索する最初の作業よりも,薬剤変化の分類性能を向上させる。 そこで本研究では, 0.959 f1で高い性能を示す薬剤を同定し, 平均0.827 f1で薬剤変化とその属性を分類した。

An accurate and detailed account of patient medications, including medication changes within the patient timeline, is essential for healthcare providers to provide appropriate patient care. Healthcare providers or the patients themselves may initiate changes to patient medication. Medication changes take many forms, including prescribed medication and associated dosage modification. These changes provide information about the overall health of the patient and the rationale that led to the current care. Future care can then build on the resulting state of the patient. This work explores the automatic extraction of medication change information from free-text clinical notes. The Contextual Medication Event Dataset (CMED) is a corpus of clinical notes with annotations that characterize medication changes through multiple change-related attributes, including the type of change (start, stop, increase, etc.), initiator of the change, temporality, change likelihood, and negation. Using CMED, we identify medication mentions in clinical text and propose three novel high-performing BERT-based systems that resolve the annotated medication change characteristics. We demonstrate that our proposed architectures improve medication change classification performance over the initial work exploring CMED. We identify medication mentions with high performance at 0.959 F1, and our proposed systems classify medication changes and their attributes at an overall average of 0.827 F1.
翻訳日:2022-08-18 12:46:12 公開日:2022-08-17
# レコメンダシステムにおけるロバスト・フェア・アンド・感情認識説明の生成に向けて

Towards Generating Robust, Fair, and Emotion-Aware Explanations for Recommender Systems ( http://arxiv.org/abs/2208.08017v1 )

ライセンス: Link先を確認
Bingbing Wen, Yunhe Feng, Yongfeng Zhang, Chirag Shah(参考訳) 推薦システムはますます洗練され複雑になり、公平さと透明性の欠如に悩まされることが多い。 これらの問題に対処し、レコメンデーションシステムの信頼性と情報性を改善するために、堅牢で曖昧なレコメンデーションの説明を提供することがますます注目を集めている。 しかし、適切な感情を持つメッセージにより強く反応する人間に対して、そのような説明が生成されるという事実にもかかわらず、推奨する説明を生成する際の感情に対する考慮が欠如している。 現在の説明生成モデルは、下層のトーンや意味を正確に捉えることなく、特定の感情を誇張している。 本稿では、より堅牢で公平で感情に富んだ説明を生成するためのマルチヘッド変換器であるEmotion-aware Transformer for Explainable Recommendation(EmoTER)を提案する。 生成した説明文の言語的品質と感情的公平性を測定するために,自動テキストメトリクスと人間の知覚を併用して評価を行う。 複数の評価指標で広く使用されている3つのベンチマークデータセットの実験により、EmoTERはテキストの品質、説明可能性、感情分布に対する公平性の観点から、既存の最先端の説明生成モデルよりも一貫して優れていることが示された。 EmoTERの実装は、さらなる研究を支援するオープンソースツールキットとしてリリースされる予定である。

As recommender systems become increasingly sophisticated and complex, they often suffer from lack of fairness and transparency. Providing robust and unbiased explanations for recommendations has been drawing more and more attention as it can help address these issues and improve trustworthiness and informativeness of recommender systems. However, despite the fact that such explanations are generated for humans who respond more strongly to messages with appropriate emotions, there is a lack of consideration for emotions when generating explanations for recommendations. Current explanation generation models are found to exaggerate certain emotions without accurately capturing the underlying tone or the meaning. In this paper, we propose a novel method based on a multi-head transformer, called Emotion-aware Transformer for Explainable Recommendation (EmoTER), to generate more robust, fair, and emotion-enhanced explanations. To measure the linguistic quality and emotion fairness of the generated explanations, we adopt both automatic text metrics and human perceptions for evaluation. Experiments on three widely-used benchmark datasets with multiple evaluation metrics demonstrate that EmoTER consistently outperforms the existing state-of-the-art explanation generation models in terms of text quality, explainability, and consideration for fairness to emotion distribution. Implementation of EmoTER will be released as an open-source toolkit to support further research.
翻訳日:2022-08-18 12:45:49 公開日:2022-08-17
# 決定論的ラベリングと大マージン投影を用いた半教師付き学習

Semi-supervised Learning with Deterministic Labeling and Large Margin Projection ( http://arxiv.org/abs/2208.08058v1 )

ライセンス: Link先を確認
Ji Xu, Gang Ren, Yao Xiao, Shaobo Li, Guoyin Wang(参考訳) ラベル付きデータの集中度と多様性は半教師付き学習(SSL)の性能に非常に影響を与えるが、ほとんどのSSLモデルはラベル付きデータをランダムに選択する。 ラベル付きデータの集中性と多様性を保証する方法は、これまでのところほとんど研究されていない。 最適誘導林 (OLF) は, SSLモデルの開発に利用した際, クラス内での差分進化を明らかにする利点があると考えられる。 この研究の重要な直感は、OLF構造に基づいて認識される少数の安定かつ最も分散したデータに対して、カーネル化された大きなマージンメトリックを学習することである。 この目的を達成するために最適化問題を定式化する。 OLFでは、複数のローカルメトリクスの学習も簡単で、SSLのマルチモーダルとミックスモーダルの問題に対処できる。 OLFに基づくSSLモデルの精度と性能の安定性は, 高い効率を犠牲にすることなく, ベースライン法に比べて大幅に向上した。 実験により,提案手法は最先端のグラフSSL法と比較して精度と実行時間を向上することを示した。 コードはhttps://github.com/alanxuji/DeLaLAで公開されている。

The centrality and diversity of the labeled data are very influential to the performance of semi-supervised learning (SSL), but most SSL models select the labeled data randomly. How to guarantee the centrality and diversity of the labeled data has so far received little research attention. Optimal leading forest (OLF) has been observed to have the advantage of revealing the difference evolution within a class when it was utilized to develop an SSL model. Our key intuition of this study is to learn a kernelized large margin metric for a small amount of most stable and most divergent data that are recognized based on the OLF structure. An optimization problem is formulated to achieve this goal. Also with OLF the multiple local metrics learning is facilitated to address multi-modal and mix-modal problem in SSL. Attribute to this novel design, the accuracy and performance stableness of the SSL model based on OLF is significantly improved compared with its baseline methods without sacrificing much efficiency. The experimental studies have shown that the proposed method achieved encouraging accuracy and running time when compared to the state-of-the-art graph SSL methods. Code has been made available at https://github.com/alanxuji/DeLaLA.
翻訳日:2022-08-18 12:45:24 公開日:2022-08-17
# 高リスク領域における概念と議論に基づく解釈モデル

A Concept and Argumentation based Interpretable Model in High Risk Domains ( http://arxiv.org/abs/2208.08149v1 )

ライセンス: Link先を確認
Haixiao Chi, Dawei Wang, Gaojie Cui, Feng Mao, Beishui Liao(参考訳) 解釈可能性(interpretability)は、医療、銀行、セキュリティといったリスクの高い分野において、人工知能にとって重要なトピックとなっている。 一般的に使われている表型データに対して、従来の手法は数値データと分類データのみを用いてエンドツーエンドの機械学習モデルを訓練し、データ記述のような人間の理解可能な知識を活用できなかった。 しかし、表のデータから人間レベルの知識をマイニングし、予測に使用することは依然として課題である。 そこで我々は,人間の理解可能な概念とそれらの関係を特徴と基礎データの両方から得る新しい概念マイニング法と,知識表現と推論を行う定量的議論に基づく手法の2つの要素を含む概念と議論に基づくモデル(CAM)を提案する。 その結果、CAMは人間レベルの知識に基づいて決定を下し、推論プロセスは本質的に解釈可能である。 最後に、目的とする解釈可能なモデルを可視化するために、CAM内で支配的な推論経路を含むダイアログ的説明を提供する。 オープンソースのベンチマークデータセットと実単語ビジネスデータセットの両方における実験結果から,(1)camは透過的かつ解釈可能であり,(2)cam内の知識は人間の理解と一貫性があることが明らかとなった。

Interpretability has become an essential topic for artificial intelligence in some high-risk domains such as healthcare, bank and security. For commonly-used tabular data, traditional methods trained end-to-end machine learning models with numerical and categorical data only, and did not leverage human understandable knowledge such as data descriptions. Yet mining human-level knowledge from tabular data and using it for prediction remain a challenge. Therefore, we propose a concept and argumentation based model (CAM) that includes the following two components: a novel concept mining method to obtain human understandable concepts and their relations from both descriptions of features and the underlying data, and a quantitative argumentation-based method to do knowledge representation and reasoning. As a result of it, CAM provides decisions that are based on human-level knowledge and the reasoning process is intrinsically interpretable. Finally, to visualize the purposed interpretable model, we provide a dialogical explanation that contain dominated reasoning path within CAM. Experimental results on both open source benchmark dataset and real-word business dataset show that (1) CAM is transparent and interpretable, and the knowledge inside the CAM is coherent with human understanding; (2) Our interpretable approach can reach competitive results comparing with other state-of-art models.
翻訳日:2022-08-18 12:45:05 公開日:2022-08-17
# 解答集合プログラムにおけるロバスト一貫性の確立について

On Establishing Robust Consistency in Answer Set Programs ( http://arxiv.org/abs/2208.08157v1 )

ライセンス: Link先を確認
Andre Thevapalan and Gabriele Kern-Isberner(参考訳) 現実のアプリケーションで使用されるアンサーセットプログラムは、しばしば異なる入力データでプログラムが使用可能であることが要求される。 しかし、これはしばしば矛盾するステートメントをもたらし、結果として矛盾するプログラムにつながる。 プログラムにおける潜在的な矛盾の原因はルールの矛盾である。 本稿では,プログラム$\mathcal{P}$が,そのような入力データの任意の許容された集合に対して,非矛盾性を維持する方法を示す。 そのため、コンフリクト解決の$\lambda$-拡張という概念を導入します。 コンフリクト解決の$\lambda$-extension コンフリクトルールの$r$ は、$r$ の本体を $\lambda$ で拡張する(デフォルト)リテラルの$\lambda$ セットである。 我々は、適切な$\lambda$-extensions が持つべき特性を調べ、それに基づいて、衝突する各ルールに対する衝突解決 $\lambda$-extensions を計算する戦略を $\mathcal{p}$ で開発する。 我々は,$\lambda$-extensionsを用いてコンフリクトを逐次解決するコンフリクト解決プロセスを実装することで,任意の入力データに対して非コントラクタリーなプログラムが得られることを示す。

Answer set programs used in real-world applications often require that the program is usable with different input data. This, however, can often lead to contradictory statements and consequently to an inconsistent program. Causes for potential contradictions in a program are conflicting rules. In this paper, we show how to ensure that a program $\mathcal{P}$ remains non-contradictory given any allowed set of such input data. For that, we introduce the notion of conflict-resolving $\lambda$- extensions. A conflict-resolving $\lambda$-extension for a conflicting rule $r$ is a set $\lambda$ of (default) literals such that extending the body of $r$ by $\lambda$ resolves all conflicts of $r$ at once. We investigate the properties that suitable $\lambda$-extensions should possess and building on that, we develop a strategy to compute all such conflict-resolving $\lambda$-extensions for each conflicting rule in $\mathcal{P}$. We show that by implementing a conflict resolution process that successively resolves conflicts using $\lambda$-extensions eventually yields a program that remains non-contradictory given any allowed set of input data.
翻訳日:2022-08-18 12:44:41 公開日:2022-08-17
# ユークリッド選好モデルにおける情報損失

Information Loss in Euclidean Preference Models ( http://arxiv.org/abs/2208.08160v1 )

ライセンス: Link先を確認
Luke Thorburn, Maria Polukarov, Carmine Ventre(参考訳) 好みの空間モデルは、ベクトル埋め込みの形で、推薦システムを含む多くのディープラーニングシステムによって学習される。 これらのモデルはしばしばユークリッド構造を近似すると仮定され、ユークリッド計量によって測定されるように、個人は「理想点」に近い位置にある選択肢を好む。 しかし、Bogomolnaia and Laslier (2007) は、ユークリッド空間が個人や代替物よりも2つの少ない次元を持つ場合、この構造で表現できない順序的選好プロファイルが存在することを示した。 この結果を拡張し、ほぼ全ての選好プロファイルがユークリッドモデルで表現できない現実的状況があることを示し、ユークリッドモデルで表現不能な選好を近似するときに失われた情報の理論的下限を導出する。 この結果はベクトル埋め込みの解釈と利用に影響を及ぼす。なぜなら、任意の、真の選好の近似が近い場合、埋め込みの次元が個人や代替の数のかなりの割合である場合に限り可能であるからである。

Spatial models of preference, in the form of vector embeddings, are learned by many deep learning systems including recommender systems. Often these models are assumed to approximate a Euclidean structure, where an individual prefers alternatives positioned closer to their "ideal point", as measured by the Euclidean metric. However, Bogomolnaia and Laslier (2007) showed that there exist ordinal preference profiles that cannot be represented with this structure if the Euclidean space has two fewer dimensions than there are individuals or alternatives. We extend this result, showing that there are realistic situations in which almost all preference profiles cannot be represented with the Euclidean model, and derive a theoretical lower bound on the information lost when approximating non-representable preferences with the Euclidean model. Our results have implications for the interpretation and use of vector embeddings, because in some cases close approximation of arbitrary, true preferences is possible only if the dimensionality of the embeddings is a substantial fraction of the number of individuals or alternatives.
翻訳日:2022-08-18 12:44:17 公開日:2022-08-17
# 知識蒸留によるマルチモーダル構造を用いた白血球分類

Leukocyte Classification using Multimodal Architecture Enhanced by Knowledge Distillation ( http://arxiv.org/abs/2208.08331v1 )

ライセンス: Link先を確認
Litao Yang, Deval Mehta, Dwarikanath Mahapatra, Zongyuan Ge(参考訳) 近年,wbc(automated white blood cells)や白血球分類法が開発されている。 しかしながら、これらの方法のすべては、血液スメアまたは蛍光に基づく単一のモダリティ顕微鏡像のみを使用するため、マルチモーダル画像からのより良い学習の可能性が失われる。 本研究では,WBC分類のためのWBCデータセットを第一種として,効率的なマルチモーダルアーキテクチャを開発する。 具体的には,提案するアイデアは,まず,1つのネットワーク内でのみ,モダリティ固有の独立サブネットワークを学習する。 2)高複雑性の教師ネットワークから知識を抽出することで,独立したサブネットワークの学習能力をさらに強化する。 これにより,マルチモーダルデータセットの複雑性を低く保ちながら,高い性能を実現することができる。 当社のユニークな貢献は2つあります - 1) 我々は、wbc分類のための、その種類のマルチモーダルwbcデータセットの1つを提示します。 2) 高い性能のマルチモーダルアーキテクチャを開発し, 同時に複雑度も低く, かつ高効率なマルチモーダルアーキテクチャを提案する。

Recently, a lot of automated white blood cells (WBC) or leukocyte classification techniques have been developed. However, all of these methods only utilize a single modality microscopic image i.e. either blood smear or fluorescence based, thus missing the potential of a better learning from multimodal images. In this work, we develop an efficient multimodal architecture based on a first of its kind multimodal WBC dataset for the task of WBC classification. Specifically, our proposed idea is developed in two steps - 1) First, we learn modality specific independent subnetworks inside a single network only; 2) We further enhance the learning capability of the independent subnetworks by distilling knowledge from high complexity independent teacher networks. With this, our proposed framework can achieve a high performance while maintaining low complexity for a multimodal dataset. Our unique contribution is two-fold - 1) We present a first of its kind multimodal WBC dataset for WBC classification; 2) We develop a high performing multimodal architecture which is also efficient and low in complexity at the same time.
翻訳日:2022-08-18 12:41:38 公開日:2022-08-17
# ポリプセグメンテーションのためのfcn-transformer feature fusion

FCN-Transformer Feature Fusion for Polyp Segmentation ( http://arxiv.org/abs/2208.08352v1 )

ライセンス: Link先を確認
Edward Sanderson and Bogdan J. Matuszewski(参考訳) 大腸内視鏡検査は大腸癌(CRC)の早期発見のための金標準法として広く認められている。 セグメンテーションは2つの重要な臨床応用、すなわち病変の検出と分類に有用であり、精度と堅牢性を向上させる手段を提供する。 大腸内視鏡画像におけるポリープのマニュアルセグメンテーションは時間を要する。 その結果,ポリプセグメンテーションの自動化におけるディープラーニング(DL)の利用が重要になった。 しかし、DLベースのソリューションはオーバーフィッティングに脆弱であり、結果として異なる大腸内視鏡で撮影された画像に一般化できない。 セマンティックセグメンテーションのための最近のトランスフォーマーベースのアーキテクチャは、代替よりも高い性能と一般化を達成するが、通常は$\frac{h}{4}\times\frac{w}{4}$空間次元のセグメンテーションマップを$h\times w$入力画像に対して予測する。 そこで本研究では,完全畳み込み分岐を用いた全サイズ予測における限界を補いつつ,一次分岐におけるセグメント化の最も重要な特徴を抽出する上でトランスフォーマの強みを生かしたフルサイズセグメンテーションのための新しいアーキテクチャを提案する。 両ブランチから得られた機能は、$h\times w$セグメンテーションマップの最終予測のために融合される。 Kvasir-SEG と CVC-ClinicDB のベンチマークを用いて,mDice,mIoU,mPrecision,mRecall の計測値に関する最先端性能を示す。 さらに,これらのデータセット上でモデルをトレーニングし,その優れた一般化性能を示す。

Colonoscopy is widely recognised as the gold standard procedure for the early detection of colorectal cancer (CRC). Segmentation is valuable for two significant clinical applications, namely lesion detection and classification, providing means to improve accuracy and robustness. The manual segmentation of polyps in colonoscopy images is time-consuming. As a result, the use of deep learning (DL) for automation of polyp segmentation has become important. However, DL-based solutions can be vulnerable to overfitting and the resulting inability to generalise to images captured by different colonoscopes. Recent transformer-based architectures for semantic segmentation both achieve higher performance and generalise better than alternatives, however typically predict a segmentation map of $\frac{h}{4}\times\frac{w}{4}$ spatial dimensions for a $h\times w$ input image. To this end, we propose a new architecture for full-size segmentation which leverages the strengths of a transformer in extracting the most important features for segmentation in a primary branch, while compensating for its limitations in full-size prediction with a secondary fully convolutional branch. The resulting features from both branches are then fused for final prediction of a $h\times w$ segmentation map. We demonstrate our method's state-of-the-art performance with respect to the mDice, mIoU, mPrecision, and mRecall metrics, on both the Kvasir-SEG and CVC-ClinicDB dataset benchmarks. Additionally, we train the model on each of these datasets and evaluate on the other to demonstrate its superior generalisation performance.
翻訳日:2022-08-18 12:41:22 公開日:2022-08-17
# ニューラルネットワークが人間の言語獲得について教えてくれること

What Artificial Neural Networks Can Tell Us About Human Language Acquisition ( http://arxiv.org/abs/2208.07998v1 )

ライセンス: Link先を確認
Alex Warstadt and Samuel R. Bowman(参考訳) 自然言語処理のための機械学習の急速な進歩は、人間の言語学習の仕方に関する議論を変革する可能性がある。 しかし、現在の人工学習者や人間の学習環境やバイアスは、学習シミュレーションから得られた証拠の影響を弱める方法で多様化する。 例えば、今日の最も効果的なニューラルネットワークモデルは、典型的な子供に利用可能な言語データの約1000倍の量で訓練されている。 計算モデルによる学習可能性の関連性を高めるためには,人間に対して大きな優位性を持たないモデル学習者を訓練する必要がある。 適切なモデルが対象とする言語知識の獲得に成功すれば、仮説化された人間の学習シナリオでターゲットが学習可能であるという概念の証明を提供することができる。 プラルーシブルモデル学習者は、学習環境における変数に関する因果推論を実験的に行うことができ、学習可能性に関する憶測に基づいて、人間の自然的言語知識を主張する貧困感スタイルの主張を厳格に検証することができる。 実用的かつ倫理的な配慮により、人間に匹敵する実験は不可能であり、モデル学習者は不可欠な資源となる。 これまでのところ、不公平な優位性の現在のモデルを取り除こうとする試みは、アクセプタビリティ判断のような重要な文法的行動に対する人間以下の結果が得られる。 しかし、言語学習が現在のモデルよりも先進的なドメイン固有知識を必要とすることを正当化する前には、まず、限られた言語入力からの学習をより効率的にする方法として、マルチモーダル刺激とマルチエージェント相互作用という形で非言語的な入力を探索しなければなりません。

Rapid progress in machine learning for natural language processing has the potential to transform debates about how humans learn language. However, the learning environments and biases of current artificial learners and humans diverge in ways that weaken the impact of the evidence obtained from learning simulations. For example, today's most effective neural language models are trained on roughly one thousand times the amount of linguistic data available to a typical child. To increase the relevance of learnability results from computational models, we need to train model learners without significant advantages over humans. If an appropriate model successfully acquires some target linguistic knowledge, it can provide a proof of concept that the target is learnable in a hypothesized human learning scenario. Plausible model learners will enable us to carry out experimental manipulations to make causal inferences about variables in the learning environment, and to rigorously test poverty-of-the-stimulus-style claims arguing for innate linguistic knowledge in humans on the basis of speculations about learnability. Comparable experiments will never be possible with human subjects due to practical and ethical considerations, making model learners an indispensable resource. So far, attempts to deprive current models of unfair advantages obtain sub-human results for key grammatical behaviors such as acceptability judgments. But before we can justifiably conclude that language learning requires more prior domain-specific knowledge than current models possess, we must first explore non-linguistic inputs in the form of multimodal stimuli and multi-agent interaction as ways to make our learners more efficient at learning from limited linguistic input.
翻訳日:2022-08-18 12:40:11 公開日:2022-08-17
# DeeperDive:UiPath社とのコラボレーションにおける文書理解における弱スーパービジョンの不合理な効果

DeeperDive: The Unreasonable Effectiveness of Weak Supervision in Document Understanding A Case Study in Collaboration with UiPath Inc ( http://arxiv.org/abs/2208.08000v1 )

ライセンス: Link先を確認
Emad Elwany, Allison Hegel, Marina Shah, Brendan Roof, Genevieve Peaslee and Quentin Rivet(参考訳) 近年,様々な自然言語理解タスクに弱監視が適用されている。 長い形式のドキュメントを扱うために、弱い監督をスケールする技術的な課題が数百ページに及ぶため、ドキュメント理解領域のアプリケーションは限られている。 Lexionでは、長文(長さ10~200ページ)のPDFドキュメントに適した、弱い監視ベースのシステムを構築しました。 私たちはこのプラットフォームを数十の言語理解モデルの構築に使用し、商業契約から企業形成文書に至るまで、さまざまなドメインにうまく適用しました。 本稿では,時間,労働力,訓練データに制限のある状況において,弱い監督を伴う教師付き学習の有効性を示す。 私たちは、1週間以内に8つの高品質な機械学習モデルを構築しました。 アーキテクチャ全体、弱い監視の活用方法、達成可能な成果について、いくつかの詳細を共有しています。 また、別のアプローチで実験したり、私たちの研究を洗練させたい研究者のためのデータセットも含んでいます。 さらに、pdfフォーマットでスキャンされていないロングフォーム文書を扱う際に生じる複雑さや、そのデータで最先端のパフォーマンスを達成するのに役立ついくつかのテクニックについても触れた。

Weak supervision has been applied to various Natural Language Understanding tasks in recent years. Due to technical challenges with scaling weak supervision to work on long-form documents, spanning up to hundreds of pages, applications in the document understanding space have been limited. At Lexion, we built a weak supervision-based system tailored for long-form (10-200 pages long) PDF documents. We use this platform for building dozens of language understanding models and have applied it successfully to various domains, from commercial agreements to corporate formation documents. In this paper, we demonstrate the effectiveness of supervised learning with weak supervision in a situation with limited time, workforce, and training data. We built 8 high quality machine learning models in the span of one week, with the help of a small team of just 3 annotators working with a dataset of under 300 documents. We share some details about our overall architecture, how we utilize weak supervision, and what results we are able to achieve. We also include the dataset for researchers who would like to experiment with alternate approaches or refine ours. Furthermore, we shed some light on the additional complexities that arise when working with poorly scanned long-form documents in PDF format, and some of the techniques that help us achieve state-of-the-art performance on such data.
翻訳日:2022-08-18 12:39:43 公開日:2022-08-17
# 分散型プロトタイプにより強化されたエンティティレベルプロトタイプネットワークによるエンティティ認識

Few-shot Named Entity Recognition with Entity-level Prototypical Network Enhanced by Dispersedly Distributed Prototypes ( http://arxiv.org/abs/2208.08023v1 )

ライセンス: Link先を確認
Bin Ji, Shasha Li, Shaoduo Gan, Jie Yu, Jun Ma, Huijun Liu(参考訳) NER (Few-shot named entity recognition) により、ラベル付き例はほとんどない新しいドメインのためのNERシステムを構築することができる。 しかし、このタスクのための既存のプロトタイプネットワークは、概ね推定されたラベル依存と密接な分散プロトタイプに苦しむため、しばしば誤分類を引き起こす。 そこで我々は,分散分散プロトタイプによって拡張されたエンティティレベルのプロトタイプネットワークep-netを提案する。 EP-Netはエンティティレベルのプロトタイプを構築し、テキストスパンを候補エンティティと見なしているため、もはやラベル依存を必要としない。 さらに、EP-Netはプロトタイプをスクラッチからトレーニングして分散させ、スペースプロジェクションを使って埋め込み空間のプロトタイプに配列する。 2つの評価タスクとFew-NERD設定の実験結果から、EP-Netは、全体的な性能において、従来の強いモデルよりも一貫して優れていたことが示される。 EP-Netの有効性をさらに検証した。

Few-shot named entity recognition (NER) enables us to build a NER system for a new domain using very few labeled examples. However, existing prototypical networks for this task suffer from roughly estimated label dependency and closely distributed prototypes, thus often causing misclassifications. To address the above issues, we propose EP-Net, an Entity-level Prototypical Network enhanced by dispersedly distributed prototypes. EP-Net builds entity-level prototypes and considers text spans to be candidate entities, so it no longer requires the label dependency. In addition, EP-Net trains the prototypes from scratch to distribute them dispersedly and aligns spans to prototypes in the embedding space using a space projection. Experimental results on two evaluation tasks and the Few-NERD settings demonstrate that EP-Net consistently outperforms the previous strong models in terms of overall performance. Extensive analyses further validate the effectiveness of EP-Net.
翻訳日:2022-08-18 12:39:23 公開日:2022-08-17
# 確率差誘導ビーム探索によるテキスト逆攻撃に対する文脈認識手法

A Context-Aware Approach for Textual Adversarial Attack through Probability Difference Guided Beam Search ( http://arxiv.org/abs/2208.08029v1 )

ライセンス: Link先を確認
Huijun Liu, Jie Yu, Shasha Li, Jun Ma, Bin Ji(参考訳) テキスト敵対攻撃はテキスト分類器の脆弱性を暴露し、その堅牢性を改善するために使用できる。 既存の文脈認識手法はゴールドラベル確率のみを考慮し、攻撃経路を探索する際に欲望探索を使い、攻撃効率を制限していることが多い。 そこで本研究では,確率差誘導ビーム探索を用いた文脈認識型テキスト逆攻撃モデル pdbs を提案する。 確率差は全てのクラスラベルの確率を総合的に考慮し、PDBSは攻撃経路の選択を誘導するためにそれを使用する。 さらに、PDBSはビームサーチを使用して攻撃経路を成功させ、限られた検索スペースに苦しむことを避ける。 大規模な実験と人的評価により、PDBSは様々な評価指標で過去の最高のモデルよりも優れており、特に+19.5%の攻撃成功率をもたらすことが示されている。 アブレーション研究と定性解析はpdbの効率をさらに確認する。

Textual adversarial attacks expose the vulnerabilities of text classifiers and can be used to improve their robustness. Existing context-aware methods solely consider the gold label probability and use the greedy search when searching an attack path, often limiting the attack efficiency. To tackle these issues, we propose PDBS, a context-aware textual adversarial attack model using Probability Difference guided Beam Search. The probability difference is an overall consideration of all class label probabilities, and PDBS uses it to guide the selection of attack paths. In addition, PDBS uses the beam search to find a successful attack path, thus avoiding suffering from limited search space. Extensive experiments and human evaluation demonstrate that PDBS outperforms previous best models in a series of evaluation metrics, especially bringing up to a +19.5% attack success rate. Ablation studies and qualitative analyses further confirm the efficiency of PDBS.
翻訳日:2022-08-18 12:39:07 公開日:2022-08-17
# 自己評価 : 自己教師付ききめ細かな対話評価

SelF-Eval: Self-supervised Fine-grained Dialogue Evaluation ( http://arxiv.org/abs/2208.08094v1 )

ライセンス: Link先を確認
Longxuan Ma and Ziyu Zhuang and Weinan Zhang and Mingda Li and Ting Liu(参考訳) 本稿では,自己教師型細粒度対話評価フレームワーク(SelF-Eval)を紹介する。 中心となるアイデアは、ターン品質と対話品質全体の相関をモデル化することだ。 まず,任意の対話データに微粒なスコアを自動的に割り当てる新しい自動データ構築手法を提案する。 次に、異なるスコアレベルを識別するのに役立つマルチレベルコントラスト学習スキーマで、 \textbf{SelF-Eval} をトレーニングする。 複数のベンチマーク実験の結果、SelF-Evalは人間の評価と高度に一致しており、最先端のモデルよりも優れていることが示された。 本稿では,実験の詳細な解析を行う。 コードとデータはGitHubで公開される予定です。

This paper introduces a novel Self-supervised Fine-grained Dialogue Evaluation framework (SelF-Eval). The core idea is to model the correlation between turn quality and the entire dialogue quality. We first propose a novel automatic data construction method that can automatically assign fine-grained scores for arbitrarily dialogue data. Then we train \textbf{SelF-Eval} with a multi-level contrastive learning schema which helps to distinguish different score levels. Experimental results on multiple benchmarks show that SelF-Eval is highly consistent with human evaluations and better than the state-of-the-art models. We give a detailed analysis of the experiments in this paper. Our code and data will be published on GitHub.
翻訳日:2022-08-18 12:38:52 公開日:2022-08-17
# PCC: ボトムクサンプリングとサイクルラーニングによるカリキュラムデータ拡張

PCC: Paraphrasing with Bottom-k Sampling and Cyclic Learning for Curriculum Data Augmentation ( http://arxiv.org/abs/2208.08110v1 )

ライセンス: Link先を確認
Hongyuan Lu and Wai Lam(参考訳) CDA(Curriculum Data Augmentation)は、難易度の高い合成データを提示することで、ニューラルネットワークを改善する。 しかし、従来のCDAは単に単語摂動の比率を難しい尺度として扱い、カリキュラムを1回だけ通過する。 本稿では,ボトムkサンプリングによる\textbf{p}araphrasing と \textbf{c}yclic learning for \textbf{c}urriculum data augmentation,paraphrasingによる新しいcdaフレームワークについて述べる。 本稿では,ボトムクサンプリング付きパラフレーズ候補生成器,フィルタリング機構,難易度測定器の3つのユニットからなるカリキュラム対応パラフレーズ生成モジュールを提案する。 また,カリキュラムを複数回通した循環学習戦略を提案する。 ボトムkサンプリングは、後のカリキュラムでスーパーハードインスタンスを生成するために提案されている。 テキスト分類と対話生成の実験結果は,PCCが競争基準を超えることを示している。 ヒトの評価と広範囲なケーススタディにより、ボトムkサンプリングは超硬度インスタンスを効果的に生成し、PCCはベースライン対話エージェントを著しく改善することが示された。

Curriculum Data Augmentation (CDA) improves neural models by presenting synthetic data with increasing difficulties from easy to hard. However, traditional CDA simply treats the ratio of word perturbation as the difficulty measure and goes through the curriculums only once. This paper presents \textbf{PCC}: \textbf{P}araphrasing with Bottom-k Sampling and \textbf{C}yclic Learning for \textbf{C}urriculum Data Augmentation, a novel CDA framework via paraphrasing, which exploits the textual paraphrase similarity as the curriculum difficulty measure. We propose a curriculum-aware paraphrase generation module composed of three units: a paraphrase candidate generator with bottom-k sampling, a filtering mechanism and a difficulty measure. We also propose a cyclic learning strategy that passes through the curriculums multiple times. The bottom-k sampling is proposed to generate super-hard instances for the later curriculums. Experimental results on few-shot text classification as well as dialogue generation indicate that PCC surpasses competitive baselines. Human evaluation and extensive case studies indicate that bottom-k sampling effectively generates super-hard instances, and PCC significantly improves the baseline dialogue agent.
翻訳日:2022-08-18 12:38:43 公開日:2022-08-17
# 自然言語処理におけるディファレンシャルプライバシ - これまでの話

Differential Privacy in Natural Language Processing: The Story So Far ( http://arxiv.org/abs/2208.08140v1 )

ライセンス: Link先を確認
Oleksandra Klymenko, Stephen Meisenbacher, Florian Matthes(参考訳) ビッグデータの潮流が自然言語処理(NLP)の景観に影響を与え続けている中、現代のNLP手法の利用は、様々なテキストベースのタスクに取り組むために、このデータに根ざしている。 これらの方法は、疑う余地なく、個人または個人を特定する情報を含むことができる。 このように、NLPのプライバシに関する問題は近年、新しいプライバシ・エンハンシング・テクノロジー(PET)の開発に端を発して、確固たるものになっている。 これらのPETの中で、差分プライバシーはデータプライバシーを取り巻く会話においていくつかの望ましい性質を持っている。 当然、NLPのほとんど構造化されていない領域で微分プライバシーが適用できるかどうかが問題となる。 このトピックは、NLPメソッドに差別的プライバシを適用するにはどうすればよいのか? 本稿では,ディファレンシャルプライバシが対処する脆弱性,現在の考え方,そして何よりも考慮すべき重要な次のステップを要約することを目的とする。

As the tide of Big Data continues to influence the landscape of Natural Language Processing (NLP), the utilization of modern NLP methods has grounded itself in this data, in order to tackle a variety of text-based tasks. These methods without a doubt can include private or otherwise personally identifiable information. As such, the question of privacy in NLP has gained fervor in recent years, coinciding with the development of new Privacy-Enhancing Technologies (PETs). Among these PETs, Differential Privacy boasts several desirable qualities in the conversation surrounding data privacy. Naturally, the question becomes whether Differential Privacy is applicable in the largely unstructured realm of NLP. This topic has sparked novel research, which is unified in one basic goal: how can one adapt Differential Privacy to NLP methods? This paper aims to summarize the vulnerabilities addressed by Differential Privacy, the current thinking, and above all, the crucial next steps that must be considered.
翻訳日:2022-08-18 12:38:18 公開日:2022-08-17
# 効率的な目標条件強化学習のためのメトリック残差ネットワーク

Metric Residual Networks for Sample Efficient Goal-conditioned Reinforcement Learning ( http://arxiv.org/abs/2208.08133v1 )

ライセンス: Link先を確認
Bo Liu, Yihao Feng, Qiang Liu, Peter Stone(参考訳) ゴール条件強化学習(GCRL)は、ロボット工学における操作やナビゲーションの問題を含む、現実世界の幅広い応用の可能性を秘めている。 特にこのようなロボティクスタスクでは、サンプル効率がgcrlにとって最も重要となるのは、デフォルトでは、エージェントが目標に到達した時にのみ報酬が与えられるためである。 GCRLのサンプル効率を改善するためにいくつかの方法が提案されているが、比較的研究されていないアプローチは、サンプル効率をサポートするニューラルネットワークの設計である。 本研究では,GCRLのニューラルアーキテクチャを導入し,一般的なモノリシックネットワークアーキテクチャよりもはるかに優れたサンプリング効率を実現する。 それらの重要な洞察は、最適作用値関数 q^*(s, a, g) は特定の意味で三角不等式を満たす必要があるということである。 さらに、アクション値関数q(s,a,g)を、計量の否定和と残留非対称成分に意図的に分解するメトリック残差ネットワーク(mrn)を導入する。 MRN は任意の最適作用値関数 Q^*(s,a,g) を確実に近似し、GCRL に適合するニューラルネットワークアーキテクチャとなる。 GCRLの標準ベンチマーク環境を網羅した総合的な実験を行った。 実験の結果、MRNはサンプル効率の観点から、他の最先端のGCRLニューラルアーキテクチャより一様に優れていることが示された。

Goal-conditioned reinforcement learning (GCRL) has a wide range of potential real-world applications, including manipulation and navigation problems in robotics. Especially in such robotics task, sample efficiency is of the utmost importance for GCRL since, by default, the agent is only rewarded when it reaches its goal. While several methods have been proposed to improve the sample efficiency of GCRL, one relatively under-studied approach is the design of neural architectures to support sample efficiency. In this work, we introduce a novel neural architecture for GCRL that achieves significantly better sample efficiency than the commonly-used monolithic network architecture. They key insight is that the optimal action value function Q^*(s, a, g) must satisfy the triangle inequality in a specific sense. Furthermore, we introduce the metric residual network (MRN) that deliberately decomposes the action-value function Q(s,a,g) into the negated summation of a metric plus a residual asymmetric component. MRN provably approximates any optimal action-value function Q^*(s,a,g), thus making it a fitting neural architecture for GCRL. We conduct comprehensive experiments across 12 standard benchmark environments in GCRL. The empirical results demonstrate that MRN uniformly outperforms other state-of-the-art GCRL neural architectures in terms of sample efficiency.
翻訳日:2022-08-18 12:34:52 公開日:2022-08-17
# 量子ベイズAI

Quantum Bayes AI ( http://arxiv.org/abs/2208.08068v1 )

ライセンス: Link先を確認
Nick Polson and Vadim Sokolov and Jianeng Xu(参考訳) 量子ベイズAI(Quantum Bayesian AI, Q-B)は、量子コンピューティングで利用可能な計算ゲインを補う新興分野である。 この約束は多くのベイズアルゴリズムにおける指数的なスピードアップである。 我々の目標は、これらの手法を統計的および機械学習問題に直接適用することである。 古典確率と量子確率の双対性によって、興味の後方の量を計算する。 我々のフレームワークは、フォン・ノイマンの量子測定の原理から、MCMC、Deep Learning、Quantum Learningの計算を統一する。 量子埋め込みとニューラルゲートは、データエンコーディングと特徴選択の重要な部分でもある。 統計学習にはよく知られたカーネル法と自然な双対性がある。 2つの単純な分類アルゴリズムで量子アルゴリズムの挙動を説明する。 最後に,今後の研究の方向性について述べる。

Quantum Bayesian AI (Q-B) is an emerging field that levers the computational gains available in Quantum computing. The promise is an exponential speed-up in many Bayesian algorithms. Our goal is to apply these methods directly to statistical and machine learning problems. We provide a duality between classical and quantum probability for calculating of posterior quantities of interest. Our framework unifies MCMC, Deep Learning and Quantum Learning calculations from the viewpoint from von Neumann's principle of quantum measurement. Quantum embeddings and neural gates are also an important part of data encoding and feature selection. There is a natural duality with well-known kernel methods in statistical learning. We illustrate the behaviour of quantum algorithms on two simple classification algorithms. Finally, we conclude with directions for future research.
翻訳日:2022-08-18 12:33:49 公開日:2022-08-17
# 大規模データに対する2段階ロバスト・スパース分布統計推論

Two-Stage Robust and Sparse Distributed Statistical Inference for Large-Scale Data ( http://arxiv.org/abs/2208.08230v1 )

ライセンス: Link先を確認
Emadaldin Mozafari-Majd, Visa Koivunen(参考訳) 本稿では, 大規模データを含む, 大規模データを含む環境において, 統計的推論を行う際の問題に対処する。 データのボリュームと次元は分散処理とストレージソリューションを必要とする。 本研究では,高次元モデルに対応する2段階の分散・ロバストな統計推論手法を提案する。 モデル選択として知られる第1段階では、関連する予測子は、データの異なる部分集合にロバストなラッソ推定器を適用することによって局所的に選択される。 各計算ノードからの変数選択は、完全なデータセットのスパース基底を見つけるために投票スキームによって融合される。 関連する変数を堅牢な方法で識別する。 第2段階では、統計的に堅牢で計算効率のよいブートストラップ法が用いられる。 実際の推論は信頼区間を構成し、パラメータ推定を見つけ、標準偏差を定量化する。 ステージ1と同様、局所的推論の結果は融合中心に伝達され、そこで結合される。 解析的手法を用いて,一定数の予測器の整合性や頑健性を含む,頑健で計算効率のよいブートストラップ手法の統計的特性を確立する。 提案する2段階のロバストおよび分散推定手法は,データが高次元であり,異常値によって汚染された場合でも,信頼区間と標準偏差のブートストラップ近似を求めることで,変数選択における信頼性の高い性能とロバスト性を示す。

In this paper, we address the problem of conducting statistical inference in settings involving large-scale data that may be high-dimensional and contaminated by outliers. The high volume and dimensionality of the data require distributed processing and storage solutions. We propose a two-stage distributed and robust statistical inference procedures coping with high-dimensional models by promoting sparsity. In the first stage, known as model selection, relevant predictors are locally selected by applying robust Lasso estimators to the distinct subsets of data. The variable selections from each computation node are then fused by a voting scheme to find the sparse basis for the complete data set. It identifies the relevant variables in a robust manner. In the second stage, the developed statistically robust and computationally efficient bootstrap methods are employed. The actual inference constructs confidence intervals, finds parameter estimates and quantifies standard deviation. Similar to stage 1, the results of local inference are communicated to the fusion center and combined there. By using analytical methods, we establish the favorable statistical properties of the robust and computationally efficient bootstrap methods including consistency for a fixed number of predictors, and robustness. The proposed two-stage robust and distributed inference procedures demonstrate reliable performance and robustness in variable selection, finding confidence intervals and bootstrap approximations of standard deviations even when data is high-dimensional and contaminated by outliers.
翻訳日:2022-08-18 12:33:41 公開日:2022-08-17
# 限定脳波データを用いた感情分類のための単調制約注意モジュール

A Monotonicity Constrained Attention Module for Emotion Classification with Limited EEG Data ( http://arxiv.org/abs/2208.08155v1 )

ライセンス: Link先を確認
Dongyang Kuang, Craig Michoski, Wenting Li, Rui Guo(参考訳) 本研究では,脳波(EEG)信号の限られた,あるいは比較的少ない信号を用いて,感情分類のためのパラメータ効率の高いアテンションモジュールを提示する。 このモジュールはモノトニック性制約付き注意モジュール (MCAM) と呼ばれ、フィーチャの文法行列を注目行列に変換する際に、機能改善のためにモノトニック性に事前を組み込むことができる。 実験の結果, MCAMの有効性は, パラメータを少なくしながら, バックボーンネットワークの性能を向上するために, 最先端のアテンションモジュールに匹敵することがわかった。 異なる攻撃に関する訓練されたモデルの予測に対する感度分析もいくつか行われる。 これらの攻撃には、様々な周波数領域のフィルタリングレベルと、複数のラベルに関連付けられたサンプル間の段階的なモーフィングが含まれる。 この結果は予測におけるモジュールの挙動をよりよく理解し,データ制限やノイズのあるアプリケーションへのガイダンスを提供する。

In this work, a parameter-efficient attention module is presented for emotion classification using a limited, or relatively small, number of electroencephalogram (EEG) signals. This module is called the Monotonicity Constrained Attention Module (MCAM) due to its capability of incorporating priors on the monotonicity when converting features' Gram matrices into attention matrices for better feature refinement. Our experiments have shown that MCAM's effectiveness is comparable to state-of-the-art attention modules in boosting the backbone network's performance in prediction while requiring less parameters. Several accompanying sensitivity analyses on trained models' prediction concerning different attacks are also performed. These attacks include various frequency domain filtering levels and gradually morphing between samples associated with multiple labels. Our results can help better understand different modules' behaviour in prediction and can provide guidance in applications where data is limited and are with noises.
翻訳日:2022-08-18 12:33:21 公開日:2022-08-17
# DeepSportradar-v1: 高品質アノテーションによるスポーツ理解のためのコンピュータビジョンデータセット

DeepSportradar-v1: Computer Vision Dataset for Sports Understanding with High Quality Annotations ( http://arxiv.org/abs/2208.08190v1 )

ライセンス: Link先を確認
Gabriel Van Zandycke and Vladimir Somers and Maxime Istasse and Carlo Del Don and Davide Zambrano(参考訳) 近年の深層学習がコンピュータビジョンに応用され、スポーツビデオ理解が注目され、スポーツ消費者とリーグの両方によりリッチな情報を提供している。 本稿では,自動スポーツ理解のためのコンピュータビジョンタスク,データセット,ベンチマークスイートであるDeepSportradar-v1を紹介する。 このフレームワークの主な目的は、学術研究と現実世界の設定のギャップを埋めることである。 この目的のために、データセットは高解像度の生画像、カメラパラメータ、高品質のアノテーションを提供する。 DeepSportradarは現在、ボール3Dローカライゼーション、カメラキャリブレーション、プレイヤーインスタンスのセグメンテーション、プレイヤーの再識別の4つの課題をサポートしている。 これら4つのタスクごとに、データセット、目的、パフォーマンスメトリクス、提案したベースラインメソッドの詳細な説明が提供される。 スポーツ理解のための高度な手法のさらなる研究を促進するため、ACM Multimedia 2022カンファレンスのMMSportsワークショップの一環としてコンペティションが開催され、参加者は上記の課題を解決するための最先端の手法を開発する必要がある。 4つのデータセット、開発キット、ベースラインが公開されている。

With the recent development of Deep Learning applied to Computer Vision, sport video understanding has gained a lot of attention, providing much richer information for both sport consumers and leagues. This paper introduces DeepSportradar-v1, a suite of computer vision tasks, datasets and benchmarks for automated sport understanding. The main purpose of this framework is to close the gap between academic research and real world settings. To this end, the datasets provide high-resolution raw images, camera parameters and high quality annotations. DeepSportradar currently supports four challenging tasks related to basketball: ball 3D localization, camera calibration, player instance segmentation and player re-identification. For each of the four tasks, a detailed description of the dataset, objective, performance metrics, and the proposed baseline method are provided. To encourage further research on advanced methods for sport understanding, a competition is organized as part of the MMSports workshop from the ACM Multimedia 2022 conference, where participants have to develop state-of-the-art methods to solve the above tasks. The four datasets, development kits and baselines are publicly available.
翻訳日:2022-08-18 12:33:06 公開日:2022-08-17
# 記憶のレンズによるデータ強化のプライバシー効果について

On the Privacy Effect of Data Enhancement via the Lens of Memorization ( http://arxiv.org/abs/2208.08270v1 )

ライセンス: Link先を確認
Xiao Li and Qiongxiu Li and Zhanhao Hu and Xiaolin Hu(参考訳) 機械学習は、学習したモデルがトレーニングデータに関する機密情報を明らかにできることが示されるため、厳しいプライバシー上の懸念を生じさせる。 多くの研究が、機械学習モデルのプライバシー漏洩に対する、広く採用されているデータ強化(DA)と敵対的トレーニング(AT)技術の影響を調査している。 このようなプライバシー効果は、特定のサンプルがトレーニングセットに属しているかどうかを特定することを目的とした、メンバーシップ推論攻撃(MIAs)によってしばしば測定される。 我々は,記憶という新たな視点からプライバシを調査することを提案する。 記憶のレンズを通して、以前デプロイされたMIAは、プライバシーリスクの低いサンプルに比べて、より高いプライバシーリスクのサンプルをメンバーとして識別する可能性が低いため、誤解を招く結果をもたらす。 この問題を解決するため,我々は,評価のために個々のサンプルの記憶度を把握できる最近の攻撃を展開する。 広範な実験を通じて、プライバシ、一般化ギャップ、対向ロバスト性を含む機械学習モデルの3つの重要な特性間の接続に関する非自明な発見を明らかにする。 既存の結果と異なり、一般化のギャップはプライバシー漏洩と強く相関していないことが示される。 さらに、強力な敵意の強固さは、モデルがプライバシー攻撃の影響を受けやすいことを必ずしも示さない。

Machine learning poses severe privacy concerns as it is shown that the learned models can reveal sensitive information about their training data. Many works have investigated the effect of widely-adopted data augmentation (DA) and adversarial training (AT) techniques, termed data enhancement in the paper, on the privacy leakage of machine learning models. Such privacy effects are often measured by membership inference attacks (MIAs), which aim to identify whether a particular example belongs to the training set or not. We propose to investigate privacy from a new perspective called memorization. Through the lens of memorization, we find that previously deployed MIAs produce misleading results as they are less likely to identify samples with higher privacy risks as members compared to samples with low privacy risks. To solve this problem, we deploy a recent attack that can capture the memorization degrees of individual samples for evaluation. Through extensive experiments, we unveil non-trivial findings about the connections between three important properties of machine learning models, including privacy, generalization gap, and adversarial robustness. We demonstrate that, unlike existing results, the generalization gap is shown not highly correlated with privacy leakage. Moreover, stronger adversarial robustness does not necessarily imply that the model is more susceptible to privacy attacks.
翻訳日:2022-08-18 12:32:45 公開日:2022-08-17
# 多項式の浅層ニューラルネットワーク表現

Shallow neural network representation of polynomials ( http://arxiv.org/abs/2208.08138v1 )

ライセンス: Link先を確認
Aleksandr Beknazaryan(参考訳) 次数$R$の$d$-変数多項式は、$[0,1]^d$に、幅$d+1+\sum_{r=2}^R\binom{r+d-1}{d-1}[\binom{r+d-1}{d-1}+1]$の浅いニューラルネットワークとして表すことができる。 また、単変量$C^\beta$-smooth関数の局所化テイラー多項式のSNN表現により、浅いネットワークに対して対数係数までの収束の最小値から未知の単変量回帰関数へと導かれる。

We show that $d$-variate polynomials of degree $R$ can be represented on $[0,1]^d$ as shallow neural networks of width $d+1+\sum_{r=2}^R\binom{r+d-1}{d-1}[\binom{r+d-1}{d-1}+1]$. Also, by SNN representation of localized Taylor polynomials of univariate $C^\beta$-smooth functions, we derive for shallow networks the minimax optimal rate of convergence, up to a logarithmic factor, to unknown univariate regression function.
翻訳日:2022-08-18 12:29:58 公開日:2022-08-17
# 二次多形分離に基づく半教師付き異常検出

Semi-Supervised Anomaly Detection Based on Quadratic Multiform Separation ( http://arxiv.org/abs/2208.08265v1 )

ライセンス: Link先を確認
Ko-Hui Michael Fan and Chih-Chung Chang and Kuang-Hsiao-Yin Kongguoluo(参考訳) 本稿では,半教師付き異常検出(SSAD)のための新しい手法を提案する。 我々の分類器は、最近導入された分類モデルである2次多重形式分離(QMS)の枠組みに基づいて、2022年に制定されたQMS22と命名されている。 QMS22は、トレーニングセットと元の問題のテストセットの両方を含む多クラス分類問題を解くことで、SSADに取り組む。 分類問題は意図的に重複したサンプルを持つクラスを含む。 クラスのうちの1つは通常のサンプルと外れ値の混合を含み、他のすべてのクラスは通常のサンプルのみを含む。 そして、分類問題の結果を用いて、テストセットの各サンプルに対して、外れ値を算出する。 また,KEELレポジトリの905ベンチマーク不均衡データセットを用いて,トップパフォーマンス分類器に対するQMS22の性能評価を行った。 BRM (Bagging-Random Miner)、OCKRA (One-class K-means with Randomly-Projected features Algorithm)、ISOF (Isolation Forest)、OCSVM (One-class Support Vector Machine)である。 qms22 は isof と ocsvm を大きく上回る性能指標として、受信者の特性曲線の曲線の下の領域を使用することで示される。 さらに、ウィルコクソンのサインランク試験では、BRMに対するQMS22のテストやOCKRAに対するQMS22のテストでは統計的に有意な差はないことが明らかになった。

In this paper we propose a novel method for semi-supervised anomaly detection (SSAD). Our classifier is named QMS22 as its inception was dated 2022 upon the framework of quadratic multiform separation (QMS), a recently introduced classification model. QMS22 tackles SSAD by solving a multi-class classification problem involving both the training set and the test set of the original problem. The classification problem intentionally includes classes with overlapping samples. One of the classes contains mixture of normal samples and outliers, and all other classes contain only normal samples. An outlier score is then calculated for every sample in the test set using the outcome of the classification problem. We also include performance evaluation of QMS22 against top performing classifiers using ninety-five benchmark imbalanced datasets from the KEEL repository. These classifiers are BRM (Bagging-Random Miner), OCKRA (One-Class K-means with Randomly-projected features Algorithm), ISOF (Isolation Forest), and ocSVM (One-Class Support Vector Machine). It is shown by using the area under the curve of the receiver operating characteristic curve as the performance measure, QMS22 significantly outperforms ISOF and ocSVM. Moreover, the Wilcoxon signed-rank tests reveal that there is no statistically significant difference when testing QMS22 against BRM nor QMS22 against OCKRA.
翻訳日:2022-08-18 12:29:48 公開日:2022-08-17
# ノイズ観測によるばらばらな非負のタッカー分解と完了

Sparse Nonnegative Tucker Decomposition and Completion under Noisy Observations ( http://arxiv.org/abs/2208.08287v1 )

ライセンス: Link先を確認
Xiongjun Zhang and Michael K. Ng(参考訳) テンソル分解は多次元非負データから物理的に有意義な潜在因子を抽出する強力なツールであり、画像処理、機械学習、コンピュータビジョンといった様々な分野への関心が高まっている。 本稿では,雑音下での非負データ回復のための,スパース非負のタッカー分解および補完法を提案する。 ここで、基礎となる非負データテンソルは、コアテンソルといくつかの因子行列に分解され、全てのエントリは非負であり、因子行列はスパースである。 損失関数はノイズ観測の最大確率推定によって導出され、$\ell_0$ ノルムは因子行列のスパーシティを高めるために用いられる。 そこで,提案モデルの推定器の誤差境界を一般騒音条件下で定式化し,ガウス雑音,ラプラス雑音,ポアソン観測を付加した観測で定式化する。 我々の理論結果は既存のテンソル法や行列法よりも優れている。 さらに、ミニマックス下限は、対数係数まで導出された上限と一致することが示される。 合成および実世界のデータセットの数値的な例は、非負のテンソルデータ補完のための提案手法の優位性を示している。

Tensor decomposition is a powerful tool for extracting physically meaningful latent factors from multi-dimensional nonnegative data, and has been an increasing interest in a variety of fields such as image processing, machine learning, and computer vision. In this paper, we propose a sparse nonnegative Tucker decomposition and completion method for the recovery of underlying nonnegative data under noisy observations. Here the underlying nonnegative data tensor is decomposed into a core tensor and several factor matrices with all entries being nonnegative and the factor matrices being sparse. The loss function is derived by the maximum likelihood estimation of the noisy observations, and the $\ell_0$ norm is employed to enhance the sparsity of the factor matrices. We establish the error bound of the estimator of the proposed model under generic noise scenarios, which is then specified to the observations with additive Gaussian noise, additive Laplace noise, and Poisson observations, respectively. Our theoretical results are better than those by existing tensor-based or matrix-based methods. Moreover, the minimax lower bounds are shown to be matched with the derived upper bounds up to logarithmic factors. Numerical examples on both synthetic and real-world data sets demonstrate the superiority of the proposed method for nonnegative tensor data completion.
翻訳日:2022-08-18 12:29:21 公開日:2022-08-17
# IoTに基づく深層強化学習を用いた建設企業の自律的資源管理

Autonomous Resource Management in Construction Companies Using Deep Reinforcement Learning Based on IoT ( http://arxiv.org/abs/2208.08087v1 )

ライセンス: Link先を確認
Maryam Soleymani and Mahdi Bonyani(参考訳) リソース割り当ては、コスト、時間、品質に直接影響するため、建設プロジェクトの計画において最も重要な問題の1つです。 通常、プロジェクトの目的に応じて自律的なリソース管理のための特定の割り当て方法があります。 しかし, 建設組織全体における資源利用の総合的な計画と最適化は乏しい。 本研究の目的は,様々な状況で利用できる深層強化学習(DRL)に基づく建設企業のための自動資源配分構造を提案することである。 この構造では、Data Harvesting (DH)は、分散IoT(Internet of Things)センサーデバイスから企業のプロジェクト全体からリソース情報を収集し、自律的なリソース管理アプローチを採用する。 次に、CRA(Coverage Resources Allocation)を、自律資源管理(ARM)が関心のプロジェクトを決定するDHから得られる情報と比較する。 同様に、類似したモデルを持つDouble Deep Q-Networks (DDQNs) も、目標とリソース制約のバランスをとるために、会社の構造化リソース情報に基づいて、2つの異なる割り当て状況に基づいて訓練されている。 提案手法は,ポートフォリオ情報と採用個別プロジェクト情報を組み合わせることで,大規模資源管理システムに効率よく適応することができる。 また、重要な情報処理パラメータがリソース割り当て性能に与える影響を詳細に分析する。 さらに,管理アプローチの一般化結果を示し,状況変数が変化しても追加トレーニングは不要であることを示す。

Resource allocation is one of the most critical issues in planning construction projects, due to its direct impact on cost, time, and quality. There are usually specific allocation methods for autonomous resource management according to the projects objectives. However, integrated planning and optimization of utilizing resources in an entire construction organization are scarce. The purpose of this study is to present an automatic resource allocation structure for construction companies based on Deep Reinforcement Learning (DRL), which can be used in various situations. In this structure, Data Harvesting (DH) gathers resource information from the distributed Internet of Things (IoT) sensor devices all over the companys projects to be employed in the autonomous resource management approach. Then, Coverage Resources Allocation (CRA) is compared to the information obtained from DH in which the Autonomous Resource Management (ARM) determines the project of interest. Likewise, Double Deep Q-Networks (DDQNs) with similar models are trained on two distinct assignment situations based on structured resource information of the company to balance objectives with resource constraints. The suggested technique in this paper can efficiently adjust to large resource management systems by combining portfolio information with adopted individual project information. Also, the effects of important information processing parameters on resource allocation performance are analyzed in detail. Moreover, the results of the generalizability of management approaches are presented, indicating no need for additional training when the variables of situations change.
翻訳日:2022-08-18 12:29:03 公開日:2022-08-17
# 不平衡雑音ラベルメタラーニングのための検証セットの有用性の最大化

Maximising the Utility of Validation Sets for Imbalanced Noisy-label Meta-learning ( http://arxiv.org/abs/2208.08132v1 )

ライセンス: Link先を確認
Dung Anh Hoang and Cuong Nguyen anh Belagiannis Vasileios and Gustavo Carneiro(参考訳) メタラーニングは, ランダムに選択され, 手動でラベル付けされ, バランスの取れた分散サンプルを含む検証セットに依存する。 この検証セットのランダムな選択と手作業によるラベル付けとバランスは、メタラーニングに最適であるだけでなく、クラス数にも及ばない。 したがって、近年のメタラーニング論文では、この検証セットを自動構築しラベル付けするためのアドホックなヒューリスティックスを提案しているが、これらのヒューリスティックスはメタラーニングにはまだ準最適である。 本稿では,メタラーニングアルゴリズムを分析し,検証セットの有用性を評価するための新しい基準を提案する。 1) 検証セットの通知性 2) 集合のクラス分布バランス,及び 3) 集合のラベルの正確性。 さらに、上記の基準を用いて有効性を最大化して検証セットを自動構築する、新しい不均衡雑音ラベルメタラーニング(INOLML)アルゴリズムを提案する。 提案手法は,これまでのメタラーニング手法よりも大幅に改善し,いくつかのベンチマークで新たな最先端を設定できる。

Meta-learning is an effective method to handle imbalanced and noisy-label learning, but it depends on a validation set containing randomly selected, manually labelled and balanced distributed samples. The random selection and manual labelling and balancing of this validation set is not only sub-optimal for meta-learning, but it also scales poorly with the number of classes. Hence, recent meta-learning papers have proposed ad-hoc heuristics to automatically build and label this validation set, but these heuristics are still sub-optimal for meta-learning. In this paper, we analyse the meta-learning algorithm and propose new criteria to characterise the utility of the validation set, based on: 1) the informativeness of the validation set; 2) the class distribution balance of the set; and 3) the correctness of the labels of the set. Furthermore, we propose a new imbalanced noisy-label meta-learning (INOLML) algorithm that automatically builds a validation set by maximising its utility using the criteria above. Our method shows significant improvements over previous meta-learning approaches and sets the new state-of-the-art on several benchmarks.
翻訳日:2022-08-18 12:28:41 公開日:2022-08-17
# スマートカメラ駐車システムのためのエラーフリー深部占有検知装置の開発

Towards an Error-free Deep Occupancy Detector for Smart Camera Parking System ( http://arxiv.org/abs/2208.08220v1 )

ライセンス: Link先を確認
Tung-Lam Duong, Van-Duc Le, Tien-Cuong Bui, and Hai-Thien To(参考訳) スマートカメラの駐車システムの概念は数十年間存在してきたが、いくつかのアプローチがシステムのスケーラビリティと信頼性に完全に対処している。 スマート駐車システムの基盤は、占有者を検出する能力であるので、従来の方法は、分類バックボーンを使用して、手動のラベル付きグリッドからスポットを予測する。 これは時間がかかり、システムのスケーラビリティを失う。 さらに、ほとんどのアプローチはディープラーニングモデルを使用しており、エラーなしではなく、大規模に信頼性がない。 そこで本研究では,OcpDetと呼ばれる物体検出装置による自律的位置検出を実現する,エンドツーエンドのスマートカメラ駐車システムを提案する。 我々の検出器はまた、トレーニングと空間知識という対照的なモジュールから有意義な情報を提供する。 我々は既存のpklotデータセットでocpdetをベンチマークし、従来の分類ソリューションと比較して競争力のある結果を得る。 また,様々な視点からシステム性能を推定し,駐車課題におけるシステム評価を行うsnu-spsデータセットも追加した。 データセットから得られた結果は,我々のシステムが現実世界のアプリケーションに対して有望であることを示している。

Although the smart camera parking system concept has existed for decades, a few approaches have fully addressed the system's scalability and reliability. As the cornerstone of a smart parking system is the ability to detect occupancy, traditional methods use the classification backbone to predict spots from a manual labeled grid. This is time-consuming and loses the system's scalability. Additionally, most of the approaches use deep learning models, making them not error-free and not reliable at scale. Thus, we propose an end-to-end smart camera parking system where we provide an autonomous detecting occupancy by an object detector called OcpDet. Our detector also provides meaningful information from contrastive modules: training and spatial knowledge, which avert false detections during inference. We benchmark OcpDet on the existing PKLot dataset and reach competitive results compared to traditional classification solutions. We also introduce an additional SNU-SPS dataset, in which we estimate the system performance from various views and conduct system evaluation in parking assignment tasks. The result from our dataset shows that our system is promising for real-world applications.
翻訳日:2022-08-18 12:28:21 公開日:2022-08-17
# ダイナミックな世界でのオープンロングテール認識

Open Long-Tailed Recognition in a Dynamic World ( http://arxiv.org/abs/2208.08349v1 )

ライセンス: Link先を確認
Ziwei Liu, Zhongqi Miao, Xiaohang Zhan, Jiayun Wang, Boqing Gong, Stella X. Yu(参考訳) 現実世界のデータは、しばしば、ロングテールかつオープンエンドの(未知のクラスを含む)分布を示す。 現実的な認識システムは、多数派(頭)クラスと少数派(尾)クラスの間でバランスを取り、分布を一般化し、目に見えないクラス(オープンクラス)のインスタンスで新規性を認める必要がある。 我々は,Long-Tailed Recognition++ (OLTR++) を,そのような自然分布データからの学習として定義し,既知のクラスとオープンクラスの両方を含むバランステストセット上での分類精度を最適化する。 OLTR++は、不均衡な分類、少数ショット学習、オープンセット認識、アクティブラーニングを1つの統合アルゴリズムで処理する。 主な課題は: 1) 頭と尾の授業における視覚知識の共有方法 2)テールクラスとオープンクラスとの混同を減らす方法 3)学習知識のあるオープンクラスを積極的に探究する方法。 私たちのアルゴリズムであるoltr++は、視覚的概念がメモリアソシエーション機構と学習されたメトリック(動的メタエンベディング)を通じて相互に関連付けられるような特徴空間に画像をマッピングします。 さらに,オープンクラスをデータ効率の良い方法で認識し,今後の拡張のために学習する,視覚記憶に基づくアクティブラーニングスキームを提案する。 imagenet(object-centric)、places(scene-centric)、ms1m(face-centric)のデータと3つの標準ベンチマーク(cifar-10-lt、cifar-100-lt、inaturalist-18)から収集した3つの大規模オープンロングテールデータセットについて、統一フレームワークとしての我々のアプローチは、一貫して競合性能を示しています。 特に,本手法は,オープンクラスの活発な探索と少数群の公正性分析に強い可能性を示す。

Real world data often exhibits a long-tailed and open-ended (with unseen classes) distribution. A practical recognition system must balance between majority (head) and minority (tail) classes, generalize across the distribution, and acknowledge novelty upon the instances of unseen classes (open classes). We define Open Long-Tailed Recognition++ (OLTR++) as learning from such naturally distributed data and optimizing for the classification accuracy over a balanced test set which includes both known and open classes. OLTR++ handles imbalanced classification, few-shot learning, open-set recognition, and active learning in one integrated algorithm, whereas existing classification approaches often focus only on one or two aspects and deliver poorly over the entire spectrum. The key challenges are: 1) how to share visual knowledge between head and tail classes, 2) how to reduce confusion between tail and open classes, and 3) how to actively explore open classes with learned knowledge. Our algorithm, OLTR++, maps images to a feature space such that visual concepts can relate to each other through a memory association mechanism and a learned metric (dynamic meta-embedding) that both respects the closed world classification of seen classes and acknowledges the novelty of open classes. Additionally, we propose an active learning scheme based on visual memory, which learns to recognize open classes in a data-efficient manner for future expansions. On three large-scale open long-tailed datasets we curated from ImageNet (object-centric), Places (scene-centric), and MS1M (face-centric) data, as well as three standard benchmarks (CIFAR-10-LT, CIFAR-100-LT, and iNaturalist-18), our approach, as a unified framework, consistently demonstrates competitive performance. Notably, our approach also shows strong potential for the active exploration of open classes and the fairness analysis of minority groups.
翻訳日:2022-08-18 12:28:04 公開日:2022-08-17
# shortcutlens:自然言語理解データセットのショートカットを探索するビジュアル分析アプローチ

ShortcutLens: A Visual Analytics Approach for Exploring Shortcuts in Natural Language Understanding Dataset ( http://arxiv.org/abs/2208.08010v1 )

ライセンス: Link先を確認
Zhihua Jin, Xingbo Wang, Furui Cheng, Chunhui Sun, Qun Liu, Huamin Qu(参考訳) ベンチマークデータセットは自然言語理解(NLU)モデルを評価する上で重要な役割を果たす。 しかし、ショートカット -- ベンチマークデータセットの望ましくないバイアス -- は、モデルの実機能を明らかにする際のベンチマークデータセットの有効性を損なう可能性がある。 ショートカットはカバレッジ、生産性、意味において異なるため、NLUの専門家がベンチマークデータセットを作成する際に、それらを体系的に理解し回避することは困難である。 本論文では,NLUベンチマークデータセットにおけるショートカットの探索を支援する視覚分析システムであるShortcutLensを開発する。 このシステムはショートカットのマルチレベル探索を可能にする。 具体的には、statistics viewは、ベンチマークデータセットのショートカットのカバレッジや生産性といった統計情報を把握するのに役立ちます。 テンプレートビューは階層的かつ解釈可能なテンプレートを使用して、さまざまなタイプのショートカットを要約する。 インスタンスビューは、ショートカットでカバーされた対応するインスタンスをチェックすることができる。 システムの有効性とユーザビリティを評価するために,ケーススタディとエキスパートインタビューを実施します。 その結果、ShortcutLensはユーザに対して、ショートカットを通じてベンチマークデータセットの問題をよりよく理解することを支援し、困難で関連するベンチマークデータセットを作成するように促している。

Benchmark datasets play an important role in evaluating Natural Language Understanding (NLU) models. However, shortcuts -- unwanted biases in the benchmark datasets -- can damage the effectiveness of benchmark datasets in revealing models' real capabilities. Since shortcuts vary in coverage, productivity, and semantic meaning, it is challenging for NLU experts to systematically understand and avoid them when creating benchmark datasets. In this paper, we develop a visual analytics system, ShortcutLens, to help NLU experts explore shortcuts in NLU benchmark datasets. The system allows users to conduct multi-level exploration of shortcuts. Specifically, Statistics View helps users grasp the statistics such as coverage and productivity of shortcuts in the benchmark dataset. Template View employs hierarchical and interpretable templates to summarize different types of shortcuts. Instance View allows users to check the corresponding instances covered by the shortcuts. We conduct case studies and expert interviews to evaluate the effectiveness and usability of the system. The results demonstrate that ShortcutLens supports users in gaining a better understanding of benchmark dataset issues through shortcuts, inspiring them to create challenging and pertinent benchmark datasets.
翻訳日:2022-08-18 12:27:27 公開日:2022-08-17
# 動的チャネルのための干渉キャンセルganフレームワーク

Interference Cancellation GAN Framework for Dynamic Channels ( http://arxiv.org/abs/2208.08019v1 )

ライセンス: Link先を確認
Hung T. Nguyen, Steven Bottone, Kwang Taik Kim, Mung Chiang, H. Vincent Poor(参考訳) シンボル検出は、例えばマルチユーザマルチインプットマルチアウトプット(MIMO)の設定など、現代の通信システムにおける基本的な問題である。 反復型ソフト干渉キャンセル(sic)は、このタスクの最先端手法であり、最近、未知の非線形チャネルを扱うデータ駆動ニューラルネットワークモデル(deepsicなど)を動機付けている。 しかし、これらのニューラルネットワークモデルは、適用前にネットワークの徹底した時間を要するため、実際には高ダイナミックなチャネルには適さない。 チャネルのあらゆる変更に迅速に適応できるオンライントレーニングフレームワークを導入します。 提案するフレームワークは,最近登場したgenerative adversarial network (gans) を用いて,チャネル内の任意の変更をキャプチャし,モデルの最高性能を維持するためにネットワークを迅速に調整する。 実験では,我々のフレームワークが,最近のニューラルネットワークモデルを高度にダイナミックなチャネルで大幅に上回り,静的チャネル上でも上回ることを実証した。

Symbol detection is a fundamental and challenging problem in modern communication systems, e.g., multiuser multiple-input multiple-output (MIMO) setting. Iterative Soft Interference Cancellation (SIC) is a state-of-the-art method for this task and recently motivated data-driven neural network models, e.g. DeepSIC, that can deal with unknown non-linear channels. However, these neural network models require thorough timeconsuming training of the networks before applying, and is thus not readily suitable for highly dynamic channels in practice. We introduce an online training framework that can swiftly adapt to any changes in the channel. Our proposed framework unifies the recent deep unfolding approaches with the emerging generative adversarial networks (GANs) to capture any changes in the channel and quickly adjust the networks to maintain the top performance of the model. We demonstrate that our framework significantly outperforms recent neural network models on highly dynamic channels and even surpasses those on the static channel in our experiments.
翻訳日:2022-08-18 12:27:09 公開日:2022-08-17
# 超信頼性・低レイテンシthz無線ネットワークのための人工知能による複数アクセス

Artificial Intelligence Empowered Multiple Access for Ultra Reliable and Low Latency THz Wireless Networks ( http://arxiv.org/abs/2208.08039v1 )

ライセンス: Link先を確認
Alexandros-Apostolos A. Boulogeorgos, Edwin Yaqub, Rachana Desai, Tachporn Sanguanpuak, Nikos Katzouris, Fotis Lazarakis, Angeliki Alexiou and Marco Di Renzo(参考訳) terahertz (thz) ワイヤレスネットワークは、beyond fifth generation (b5g)時代を触媒すると予想されている。 しかしながら、thzリンクの方向的性質と視線需要、およびthzネットワークの超高密度展開により、媒体アクセス制御(mac)層が直面するべき課題がいくつも作成されている。 より詳しくは、複雑かつ頻繁な環境において「リアルタイム」なソリューションを提供する人工知能(AI)を取り入れることで、ユーザアソシエーションとリソースアロケーション戦略を再考する必要性が明らかになる。 さらに、複数のb5gアプリケーションの超信頼性と低遅延要求を満たすために、新しいモビリティ管理アプローチが必要である。 そこで本稿では,インテリジェントなユーザアソシエーションとリソースアロケーション,柔軟性と適応性を備えたモビリティ管理を実現するとともに,ブロック化によるシステムの信頼性を最大化する,総合的なmacレイヤアプローチを提案する。 より詳しくは、新しいメタヒューリスティック・マシン・ラーニング・フレームワークによる高速で集中的な共同ユーザ・アソシエーション、無線リソースアロケーション、ブロック回避を文書化し、THzネットワークの性能を最大化するとともに、アソシエーション遅延を約3桁まで最小化する。 アクセスポイント(AP)カバレッジエリア,モビリティ管理,ブロック回避を支援するために,ビーム選択のための深層強化学習(DRL)アプローチについて議論した。 最後に、近隣APのカバレッジ領域間のユーザモビリティをサポートするため、AIによる高速チャネル予測に基づくアクティブハンドオーバ機構が報告されている。

Terahertz (THz) wireless networks are expected to catalyze the beyond fifth generation (B5G) era. However, due to the directional nature and the line-of-sight demand of THz links, as well as the ultra-dense deployment of THz networks, a number of challenges that the medium access control (MAC) layer needs to face are created. In more detail, the need of rethinking user association and resource allocation strategies by incorporating artificial intelligence (AI) capable of providing "real-time" solutions in complex and frequently changing environments becomes evident. Moreover, to satisfy the ultra-reliability and low-latency demands of several B5G applications, novel mobility management approaches are required. Motivated by this, this article presents a holistic MAC layer approach that enables intelligent user association and resource allocation, as well as flexible and adaptive mobility management, while maximizing systems' reliability through blockage minimization. In more detail, a fast and centralized joint user association, radio resource allocation, and blockage avoidance by means of a novel metaheuristic-machine learning framework is documented, that maximizes the THz networks performance, while minimizing the association latency by approximately three orders of magnitude. To support, within the access point (AP) coverage area, mobility management and blockage avoidance, a deep reinforcement learning (DRL) approach for beam-selection is discussed. Finally, to support user mobility between coverage areas of neighbor APs, a proactive hand-over mechanism based on AI-assisted fast channel prediction is~reported.
翻訳日:2022-08-18 12:26:49 公開日:2022-08-17
# 制約付きFew-Shot学習:人間に似た低サンプル複雑度学習と非エポゾディックテキスト分類

Constrained Few-Shot Learning: Human-Like Low Sample Complexity Learning and Non-Episodic Text Classification ( http://arxiv.org/abs/2208.08089v1 )

ライセンス: Link先を確認
Jaron Mar and Jiamou Liu(参考訳) FSL(Few-shot Learning)は、人間の学習方法、一般化、外挿を模した、サンプルの少ない複雑さで学習しようとする、創発的な学習パラダイムである。 FSLは、これらの人間の特徴を模倣しようとするが、基本的には、FSLのタスクは、メタラーニングとエピソードベースのトレーニングを用いて記述され、モデル化されている。 エピソードトレーニングを備えたFSLは、各テストクラスの$K$インスタンスのみを使用するが、相反するトレーニングクラスの多数のラベル付きインスタンスを必要とする。 本稿では,fslの特別な場合である制約付き少数ショット学習(constricted few-shot learning, cfsl)という新しいタスクについて紹介する。 ファジィトレース理論やプロトタイプ理論などの認知理論に触発された新しいカテゴリー的コントラスト損失を用いて, cat2vecを活用するcfsl法を提案する。

Few-shot learning (FSL) is an emergent paradigm of learning that attempts to learn with low sample complexity to mimic the way humans can learn, generalise and extrapolate based on only a few examples. While FSL attempts to mimic these human characteristics, fundamentally, the task of FSL as conventionally described and modelled using meta-learning with episodic-based training does not fully align with how humans acquire and reason with knowledge. FSL with episodic training, while only using $K$ instances of each test class, still requires a large number of labelled instances from disjoint training classes. In this paper, we introduce the novel task of constrained few-shot learning (CFSL), a special case of FSL where the number of training instances of each class is constrained to be less than some value $M$ thus applying a similar restriction during training and test. We propose a method for CFSL leveraging Cat2Vec using a novel categorical contrastive loss inspired by cognitive theories such as fuzzy trace theory and prototype theory.
翻訳日:2022-08-18 12:23:30 公開日:2022-08-17
# NECE:ナラティブイベントチェーン抽出ツールキット

NECE: Narrative Event Chain Extraction Toolkit ( http://arxiv.org/abs/2208.08063v1 )

ライセンス: Link先を確認
Guangxuan Xu, Paulina Toro Isaza, Moshi Li, Akintoye Oloko, Bingsheng Yao, Aminat Adebeyi, Yufang Hou, Nanyun Peng, Dakuo Wang(参考訳) NECEは、物語文書のためのイベントベースのテキスト分析ツールキットである。 NECEは、ユーザに対して、グラフィックインターフェースとピソンパッケージの両方を通じて、イベントベースの要約と長い物語文書の抽象化へのオープンで簡単なアクセスを提供することを目的としている。 本研究は,重要なイベントの長期的イベント抽出と時間的順序付けの課題に対処し,同時に,主人公や性別グループといった物語的実体に関連するイベントを選択・閲覧するオプションを提供する。 イベントチェーン抽出システムの品質を実証するため,人間による評価を行い,特徴抽出アルゴリズムを提案する。 最後に、ジェンダーバイアス分析や質問応答タスクでの使用法を実証することで、ツールキットの潜在的な下流アプリケーションに光を当てた。

NECE is an event-based text analysis toolkit built for narrative documents. NECE aims to provide users open and easy accesses to an event-based summary and abstraction of long narrative documents through both a graphic interface and a python package, which can be readily used in narrative analysis, understanding, or other advanced purposes. Our work addresses the challenge of long passage events extraction and temporal ordering of key events; at the same time, it offers options to select and view events related to narrative entities, such as main characters and gender groups. We conduct human evaluation to demonstrate the quality of the event chain extraction system and character features mining algorithms. Lastly, we shed light on the toolkit's potential downstream applications by demonstrating its usage in gender bias analysis and Question-Answering tasks.
翻訳日:2022-08-18 12:23:10 公開日:2022-08-17
# streaming adaptive submodular maximization

Streaming Adaptive Submodular Maximization ( http://arxiv.org/abs/2208.08021v1 )

ライセンス: Link先を確認
Shaojie Tang, Jing Yuan(参考訳) 多くの逐次意思決定問題は適応部分モジュラー最大化問題として定式化することができる。 しかし、既存の研究のほとんどは、任意の順序でアイテムを選択できるプールベースの設定に焦点を当てており、ストリームベースの設定では、任意の順序でアイテムが到着し、その到着時にアイテムを選択するかどうかを即座に決定しなければならないという研究はほとんど行われていない。 本稿では,新しいユーティリティ関数のクラス,半政治的なサブモジュラー関数を導入する。 ストリームベースの設定下で半政治的に部分モジュラー関数を最大化するアルゴリズムを連続的に開発した。

Many sequential decision making problems can be formulated as an adaptive submodular maximization problem. However, most of existing studies in this field focus on pool-based setting, where one can pick items in any order, and there have been few studies for the stream-based setting where items arrive in an arbitrary order and one must immediately decide whether to select an item or not upon its arrival. In this paper, we introduce a new class of utility functions, semi-policywise submodular functions. We develop a series of effective algorithms to maximize a semi-policywise submodular function under the stream-based setting.
翻訳日:2022-08-18 12:22:26 公開日:2022-08-17
# ランダム探索ハイパーパラメータチューニング:期待改善推定と対応する下限

Random Search Hyper-Parameter Tuning: Expected Improvement Estimation and the Corresponding Lower Bound ( http://arxiv.org/abs/2208.08170v1 )

ライセンス: Link先を確認
Dan Navon, Alex M. Bronstein(参考訳) ハイパーパラメータチューニングは、ニューラルネットワークのパフォーマンスを改善する一般的なテクニックである。 ハイパーパラメータ探索のほとんどの技術は、反復毎にモデルを再訓練する反復プロセスを含む。 しかし、追加の検索繰り返しから予想される精度の改善は、まだ不明である。 期待される改善の計算は、ハイパーパラメータチューニングの停止ルールの作成に役立ち、プロジェクトの計算予算のより賢明な割り当てを可能にする。 本稿では,ハイパーパラメータ探索の追加イテレーションから推定した推定精度を実証的に推定する。 提案手法は, ランダムサーチ \cite{bergstra2012random} に基づく任意のハイパーパラメータチューニング法と, 固定分布からハイパーパラメータをサンプリングする。 誤差は$o\left(\sqrt{\frac{\log k}{k}}\right)$ w.h.p.であり、ここで$k$は現在のイテレーション数である。 私たちの知る限りでは、これはハイパーパラメータ検索の追加イテレーションから得られる期待値の最初の限界です。 最後に、予測精度の最適推定値が $\frac{1}{k}$ の誤差を持つことを示す。

Hyperparameter tuning is a common technique for improving the performance of neural networks. Most techniques for hyperparameter search involve an iterated process where the model is retrained at every iteration. However, the expected accuracy improvement from every additional search iteration, is still unknown. Calculating the expected improvement can help create stopping rules for hyperparameter tuning and allow for a wiser allocation of a project's computational budget. In this paper, we establish an empirical estimate for the expected accuracy improvement from an additional iteration of hyperparameter search. Our results hold for any hyperparameter tuning method which is based on random search \cite{bergstra2012random} and samples hyperparameters from a fixed distribution. We bound our estimate with an error of $O\left(\sqrt{\frac{\log k}{k}}\right)$ w.h.p. where $k$ is the current number of iterations. To the best of our knowledge this is the first bound on the expected gain from an additional iteration of hyperparameter search. Finally, we demonstrate that the optimal estimate for the expected accuracy will still have an error of $\frac{1}{k}$.
翻訳日:2022-08-18 12:22:17 公開日:2022-08-17
# 深層学習に基づく離散校正生存予測

Deep Learning-Based Discrete Calibrated Survival Prediction ( http://arxiv.org/abs/2208.08182v1 )

ライセンス: Link先を確認
Patrick Fuhlert, Anne Ernst, Esther Dietrich, Fabian Westhaeusser, Karin Kloiber, Stefan Bonn(参考訳) 生存予測のためのディープニューラルネットワークは、患者がイベントの時間に応じて順序付けする従来のアプローチよりも優れている。 逆に、Cox Proportional Hazardsモデルのような古典的なアプローチは、基礎となる分布の事象の正しい時間的予測よりもはるかに優れたキャリブレーションを示す。 特に1人の患者の生存を予測することが重要である医療領域では、判別と校正の両方が重要なパフォーマンス指標である。 本稿では、3つの医療データセットの識別において、競合する生存モデルよりも優れ、全ての離散時間モデルにおいて最高の校正を達成できる、識別および校正された生存予測のための新しいディープニューラルネットワークであるdisteed calibrated survival (dcs)を提案する。 DCSの性能向上は、変動時間出力ノード間隔と、非検閲および検閲された患者データの使用を最適化する新規損失項の2つの特徴に起因している。 我々は、DCSが、最先端の差別と良好な校正による深層学習に基づく生存予測の臨床的応用に向けた重要なステップであると考えている。

Deep neural networks for survival prediction outper-form classical approaches in discrimination, which is the ordering of patients according to their time-of-event. Conversely, classical approaches like the Cox Proportional Hazards model display much better calibration, the correct temporal prediction of events of the underlying distribution. Especially in the medical domain, where it is critical to predict the survival of a single patient, both discrimination and calibration are important performance metrics. Here we present Discrete Calibrated Survival (DCS), a novel deep neural network for discriminated and calibrated survival prediction that outperforms competing survival models in discrimination on three medical datasets, while achieving best calibration among all discrete time models. The enhanced performance of DCS can be attributed to two novel features, the variable temporal output node spacing and the novel loss term that optimizes the use of uncensored and censored patient data. We believe that DCS is an important step towards clinical application of deep-learning-based survival prediction with state-of-the-art discrimination and good calibration.
翻訳日:2022-08-18 12:22:02 公開日:2022-08-17
# グラフトポロジ不均衡のための位置認識型構造学習

Position-aware Structure Learning for Graph Topology-imbalance by Relieving Under-reaching and Over-squashing ( http://arxiv.org/abs/2208.08302v1 )

ライセンス: Link先を確認
Qingyun Sun, Jianxin Li, Haonan Yuan, Xingcheng Fu, Hao Peng, Cheng Ji, Qian Li, Philip S. Yu(参考訳) トポロジー不均衡はラベル付きノードの不均一なトポロジー位置に起因するグラフ固有の不均衡問題であり、gnnの性能を著しく損なう。 トポロジの不均衡とは何か,グラフ学習への影響を計測する方法は,まだ未検討のままだ。 本稿では,2つの量的指標を測定対象とするアンダーレッシングとオーバースキャッシングの観点から,監督情報分布のグローバルな視点から,トポロジ不均衡の新たな理解を提供する。 本研究では,情報伝達経路を直接最適化し,トポロジと不均衡の問題を本質的に解決する,位置認識型グラフ構造学習フレームワーク PASTEL を提案する。 私たちの重要な洞察は、同じクラス内のノードの接続性を高め、より多くの監督情報を提供することです。 具体的には,ラベルの影響を最大化し,クラス内インダクティブバイアスを増大させるアンカーベースの位置符号化機構を設計する。 さらに,異なるノードクラスの分離に有利なエッジウェイトとして,クラス毎の競合測度を提案する。 大規模な実験は、異なるデータアノテーションシナリオにおけるGNNのパワーを高める上で、PASTELの優れた可能性と適応性を示す。

Topology-imbalance is a graph-specific imbalance problem caused by the uneven topology positions of labeled nodes, which significantly damages the performance of GNNs. What topology-imbalance means and how to measure its impact on graph learning remain under-explored. In this paper, we provide a new understanding of topology-imbalance from a global view of the supervision information distribution in terms of under-reaching and over-squashing, which motivates two quantitative metrics as measurements. In light of our analysis, we propose a novel position-aware graph structure learning framework named PASTEL, which directly optimizes the information propagation path and solves the topology-imbalance issue in essence. Our key insight is to enhance the connectivity of nodes within the same class for more supervision information, thereby relieving the under-reaching and over-squashing phenomena. Specifically, we design an anchor-based position encoding mechanism, which better incorporates relative topology position and enhances the intra-class inductive bias by maximizing the label influence. We further propose a class-wise conflict measure as the edge weights, which benefits the separation of different node classes. Extensive experiments demonstrate the superior potential and adaptability of PASTEL in enhancing GNNs' power in different data annotation scenarios.
翻訳日:2022-08-18 12:21:42 公開日:2022-08-17
# エージェントの発見

Discovering Agents ( http://arxiv.org/abs/2208.08345v1 )

ライセンス: Link先を確認
Zachary Kenton, Ramana Kumar, Sebastian Farquhar, Jonathan Richens, Matt MacDermott and Tom Everitt(参考訳) エージェントの因果モデルは、機械学習システムの安全性の側面を分析するために使われてきた。 しかし、エージェントを特定することは非自明であり、多くの場合、因果モデルは、正当化のあまりないモデリング者によって仮定される。 本稿では,エージェントの因果的定義を初めて提唱する。エージェントは,アクションが異なる方法で世界に影響を与える場合,そのポリシーに適応するシステムである。 このことから,経験的データからエージェントを発見するための最初の因果探索アルゴリズムが導出され,因果モデルとゲーム理論の影響図を翻訳するアルゴリズムが提供される。 エージェントの誤った因果モデリングによる過去の混乱を解消することで,我々のアプローチを実証する。

Causal models of agents have been used to analyse the safety aspects of machine learning systems. But identifying agents is non-trivial -- often the causal model is just assumed by the modeler without much justification -- and modelling failures can lead to mistakes in the safety analysis. This paper proposes the first formal causal definition of agents -- roughly that agents are systems that would adapt their policy if their actions influenced the world in a different way. From this we derive the first causal discovery algorithm for discovering agents from empirical data, and give algorithms for translating between causal models and game-theoretic influence diagrams. We demonstrate our approach by resolving some previous confusions caused by incorrect causal modelling of agents.
翻訳日:2022-08-18 12:21:09 公開日:2022-08-17
# 重要なラベルノイズの存在下での小型モデルの超越一般化

Superior generalization of smaller models in the presence of significant label noise ( http://arxiv.org/abs/2208.08003v1 )

ライセンス: Link先を確認
Yihao Xue, Kyle Whitecross, Baharan Mirzasoleiman(参考訳) より優れた一般化性能を達成するための過度パラメータ化の利点は、いくつかの研究で示されており、実際はより大きなモデルを使う傾向を正当化している。 しかし、ロバスト学習の文脈では、ニューラルネットワークのサイズの影響は十分に研究されていない。 本研究では,誤記例のかなりの一部が存在する場合,ネットワークサイズをある時点を超えて増加させることが有害であることを示す。 特に、もともと単調あるいは「二重降下」テスト損失曲線(ネットワーク幅)は、ラベルノイズが増加するとU字型または二重U字型となるため、中間サイズのあるモデルによって最高の一般化が達成される。 ネットワークサイズがランダムプルーニングによって密度によって制御される場合、同様のテスト損失挙動が観察される。 また, バイアス分散分解を通した現象と, ラベルノイズが分散項をどのように形成するかを理論的に考察する。 テスト損失の同様の挙動は、最先端のロバストな手法を適用した場合でも観察でき、ネットワークサイズを制限することで既存の手法をさらに強化できることを示している。 最後に,ネットワークサイズが学習関数の滑らかさに与える影響を実証的に検討し,ラベルノイズにより,もともとはサイズと滑らかさの負の相関が反転していることを確認した。

The benefits of over-parameterization in achieving superior generalization performance have been shown in several recent studies, justifying the trend of using larger models in practice. In the context of robust learning however, the effect of neural network size has not been well studied. In this work, we find that in the presence of a substantial fraction of mislabeled examples, increasing the network size beyond some point can be harmful. In particular, the originally monotonic or `double descent' test loss curve (w.r.t. network width) turns into a U-shaped or a double U-shaped curve when label noise increases, suggesting that the best generalization is achieved by some model with intermediate size. We observe that when network size is controlled by density through random pruning, similar test loss behaviour is observed. We also take a closer look into both phenomenon through bias-variance decomposition and theoretically characterize how label noise shapes the variance term. Similar behavior of the test loss can be observed even when state-of-the-art robust methods are applied, indicating that limiting the network size could further boost existing methods. Finally, we empirically examine the effect of network size on the smoothness of learned functions, and find that the originally negative correlation between size and smoothness is flipped by label noise.
翻訳日:2022-08-18 12:20:56 公開日:2022-08-17
# 性別集団における性別分類バイアス軽減のための深部生成的視点

Deep Generative Views to Mitigate Gender Classification Bias Across Gender-Race Groups ( http://arxiv.org/abs/2208.08382v1 )

ライセンス: Link先を確認
Sreeraj Ramachandran and Ajita Rattani(参考訳) 公表された研究は、性別分類群にまたがる顔に基づく自動性別分類アルゴリズムのバイアスを示唆している。 特に、女性や浅黒い肌の人々の不平等な精度が得られた。 性別分類のバイアスを軽減するため、視覚コミュニティはいくつかの戦略を開発した。 しかし、これらの緩和戦略の有効性は、主に白人とアフリカ系アメリカ人の限られた人種に対して実証されている。 さらに、これらの戦略はバイアスと分類精度のトレードオフをもたらすことが多い。 さらに, ジェンダー分類バイアスの軽減に向けて, 生成的視点, 構造化学習, 立証的学習の力を活用する。 本研究では,性別・人種グループ間の偏見を定量的に検証することにより,分類精度の向上と性別・人種グループ間の偏見低減におけるバイアス緩和戦略の優位性を実証する。

Published studies have suggested the bias of automated face-based gender classification algorithms across gender-race groups. Specifically, unequal accuracy rates were obtained for women and dark-skinned people. To mitigate the bias of gender classifiers, the vision community has developed several strategies. However, the efficacy of these mitigation strategies is demonstrated for a limited number of races mostly, Caucasian and African-American. Further, these strategies often offer a trade-off between bias and classification accuracy. To further advance the state-of-the-art, we leverage the power of generative views, structured learning, and evidential learning towards mitigating gender classification bias. We demonstrate the superiority of our bias mitigation strategy in improving classification accuracy and reducing bias across gender-racial groups through extensive experimental validation, resulting in state-of-the-art performance in intra- and cross dataset evaluations.
翻訳日:2022-08-18 12:17:31 公開日:2022-08-17
# attackar: 進化的敵の攻撃

Attackar: Attack of the Evolutionary Adversary ( http://arxiv.org/abs/2208.08297v1 )

ライセンス: Link先を確認
Raz Lapid, Zvika Haramaty, Moshe Sipper(参考訳) ディープニューラルネットワーク(DNN)は、ブラックボックスシナリオなど、さまざまなシナリオにおける敵データに敏感である。 敵インスタンスを作成する既存のブラックボックスメソッドはコストがかかり、しばしば勾配推定や置換ネットワークのトレーニングを使用する。 本稿では,進化的,スコアベース,ブラックボックス攻撃である \textit{attackar} を紹介する。 attackarは、勾配のない最適化問題で使用できる新しい客観的関数に基づいている。 この攻撃は分類器の出力ロジットへのアクセスのみを必要とするため、勾配マスキングの影響を受けない。 追加の情報は不要であり、実際の状況にもっと適している。 MNIST、CIFAR10、ImageNetの3つのベンチマークデータセットに対して、Inception-v3、ResNet-50、VGG-16-BNの3つの異なる最先端モデルでパフォーマンスをテストする。 さらに,非微分変換防御および最先端ロバストモデルにおけるアタッカーの性能を評価する。 以上の結果から,精度とクエリ効率の両面で,Attackarの優れた性能を示す。

Deep neural networks (DNNs) are sensitive to adversarial data in a variety of scenarios, including the black-box scenario, where the attacker is only allowed to query the trained model and receive an output. Existing black-box methods for creating adversarial instances are costly, often using gradient estimation or training a replacement network. This paper introduces \textit{Attackar}, an evolutionary, score-based, black-box attack. Attackar is based on a novel objective function that can be used in gradient-free optimization problems. The attack only requires access to the output logits of the classifier and is thus not affected by gradient masking. No additional information is needed, rendering our method more suitable to real-life situations. We test its performance with three different state-of-the-art models -- Inception-v3, ResNet-50, and VGG-16-BN -- against three benchmark datasets: MNIST, CIFAR10 and ImageNet. Furthermore, we evaluate Attackar's performance on non-differential transformation defenses and state-of-the-art robust models. Our results demonstrate the superior performance of Attackar, both in terms of accuracy score and query efficiency.
翻訳日:2022-08-18 12:17:15 公開日:2022-08-17
# マルチモーダル基礎モデルはヒト脳のより良いシミュレータである

Multimodal foundation models are better simulators of the human brain ( http://arxiv.org/abs/2208.08263v1 )

ライセンス: Link先を確認
Haoyu Lu, Qiongyi Zhou, Nanyi Fei, Zhiwu Lu, Mingyu Ding, Jingyuan Wen, Changde Du, Xin Zhao, Hao Sun, Huiguang He, Ji-Rong Wen(参考訳) マルチモーダル学習、特に大規模マルチモーダル事前学習は、ここ数年で急速に発展し、人工知能(AI)の最大の進歩につながった。 その効果にもかかわらず、マルチモーダル事前学習モデルの基盤となるメカニズムを理解することは依然として大きな課題である。 このようなモデルの説明可能性を明らかにすることは、AI分野における新しい学習パラダイムのブレークスルーを可能にする可能性がある。 そこで本研究では,ヒト脳のマルチモーダル性を考慮して,機能的磁気共鳴画像(fMRI)などの非侵襲的脳画像技術を用いて,マルチモーダル学習モデルの説明可能性について検討する。 具体的には、まず、1500万の画像テキストペアを事前訓練した、新しく設計されたマルチモーダル基礎モデルを提示し、様々な認知下流タスクにおいて、強力なマルチモーダル理解と一般化能力を示した。 さらに、ニューラルネットワーク(基礎モデルに基づく)の観点から、視覚と言語の両方のエンコーダがマルチモーダルで訓練され、非モーダルのエンコーダよりも脳に近いことが分かりました。 特に,マルチモーダルに訓練されたエンコーダがより優れた神経エンコーディング性能を示す多くの脳領域を同定する。 これは、既存の脳多感覚統合研究の成果と一致している。 したがって、マルチモーダル基礎モデルは、脳におけるマルチモーダルシグナル処理機構を研究する神経科学者にとってより適したツールであると信じている。 また,脳と脳の両方の研究を促進するための計算シミュレータとして,マルチモーダル基礎モデルの可能性を示した。

Multimodal learning, especially large-scale multimodal pre-training, has developed rapidly over the past few years and led to the greatest advances in artificial intelligence (AI). Despite its effectiveness, understanding the underlying mechanism of multimodal pre-training models still remains a grand challenge. Revealing the explainability of such models is likely to enable breakthroughs of novel learning paradigms in the AI field. To this end, given the multimodal nature of the human brain, we propose to explore the explainability of multimodal learning models with the aid of non-invasive brain imaging technologies such as functional magnetic resonance imaging (fMRI). Concretely, we first present a newly-designed multimodal foundation model pre-trained on 15 million image-text pairs, which has shown strong multimodal understanding and generalization abilities in a variety of cognitive downstream tasks. Further, from the perspective of neural encoding (based on our foundation model), we find that both visual and lingual encoders trained multimodally are more brain-like compared with unimodal ones. Particularly, we identify a number of brain regions where multimodally-trained encoders demonstrate better neural encoding performance. This is consistent with the findings in existing studies on exploring brain multi-sensory integration. Therefore, we believe that multimodal foundation models are more suitable tools for neuroscientists to study the multimodal signal processing mechanisms in the human brain. Our findings also demonstrate the potential of multimodal foundation models as ideal computational simulators to promote both AI-for-brain and brain-for-AI research.
翻訳日:2022-08-18 12:16:52 公開日:2022-08-17
# 社会科学のためのトランスフォーマーエンコーダ

Transformer Encoder for Social Science ( http://arxiv.org/abs/2208.08005v1 )

ライセンス: Link先を確認
Haosen Ge, In Young Park, Xuancheng Qian, Grace Zeng(参考訳) 高品質なテキストデータは、社会科学者にとって重要なデータ源となっている。 我々は最近の社会科学研究において、BERTやRoBERTaのような事前訓練されたディープニューラルネットワークモデルの成功を目撃した。 本稿では,社会科学研究におけるテキスト処理タスクへの対処を目的とした,コンパクトな事前学習型深層ニューラルネットワークであるTransformer Encoder for Social Science (TESS)を提案する。 2つの検証テストを用いて、トレーニングサンプル数が制限された場合、tessがbertとrobertaを16.7%上回っていることを実証した(1,000のトレーニングインスタンス)。 その結果,社会科学テキスト処理タスクにおけるBERTやRoBERTaよりもTESSの方が優れていることが示された。 最後に,モデルの限界と今後の研究者へのアドバイスについて論じる。

High-quality text data has become an important data source for social scientists. We have witnessed the success of pretrained deep neural network models, such as BERT and RoBERTa, in recent social science research. In this paper, we propose a compact pretrained deep neural network, Transformer Encoder for Social Science (TESS), explicitly designed to tackle text processing tasks in social science research. Using two validation tests, we demonstrate that TESS outperforms BERT and RoBERTa by 16.7% on average when the number of training samples is limited (<1,000 training instances). The results display the superiority of TESS over BERT and RoBERTa on social science text processing tasks. Lastly, we discuss the limitation of our model and present advice for future researchers.
翻訳日:2022-08-18 12:16:25 公開日:2022-08-17
# EGCR:会話レコメンデーションのための説明生成

EGCR: Explanation Generation for Conversational Recommendation ( http://arxiv.org/abs/2208.08035v1 )

ライセンス: Link先を確認
Bingbing Wen, Xiaoning Bu, Chirag Shah(参考訳) Conversational Recommendation System (CRS) では、関心のあるアイテムを提供し、ユーザの好みを探求する会話ベースでレコメンデーション指向のタスク指向ツールとして機能する。 しかし、CRSの既存の作業は、ユーザへの推論ロジックを明確に示すことができず、CRS全体がまだブラックボックスのままである。 そこで本研究では,会話エージェントが行動を起こす理由を説明するための説明を生成することに基づいて,会話推薦のための説明生成(egcr)という新しいエンドツーエンドフレームワークを提案する。 EGCRはユーザレビューを取り入れて項目表現を強化し、会話全体の情報性を高める。 私たちの知る限りでは、これは現実世界のデータセットで説明可能な会話推奨のための最初のフレームワークです。 さらに,あるベンチマークの会話推薦データセット上でEGCRを評価し,他の最先端技術モデルと比較して,推奨精度と会話品質の両面において優れた性能を実現する。 最後に、広範囲な実験により、生成された説明は高品質で説明可能なだけでなく、CRSをより信頼できるものにしている。 私たちはCRSコミュニティにコントリビュートするためにコードを公開します。

Growing attention has been paid in Conversational Recommendation System (CRS), which works as a conversation-based and recommendation task-oriented tool to provide items of interest and explore user preference. However, existing work in CRS fails to explicitly show the reasoning logic to users and the whole CRS still remains a black box. Therefore we propose a novel end-to-end framework named Explanation Generation for Conversational Recommendation (EGCR) based on generating explanations for conversational agents to explain why they make the action. EGCR incorporates user reviews to enhance the item representation and increase the informativeness of the whole conversation. To the best of our knowledge, this is the first framework for explainable conversational recommendation on real-world datasets. Moreover, we evaluate EGCR on one benchmark conversational recommendation datasets and achieve better performance on both recommendation accuracy and conversation quality than other state-of-the art models. Finally, extensive experiments demonstrate that generated explanations are not only having high quality and explainability, but also making CRS more trustworthy. We will make our code available to contribute to the CRS community
翻訳日:2022-08-18 12:16:13 公開日:2022-08-17
# Few-Shot関係抽出のためのシーケンスタグに基づくフレームワーク

A Sequence Tagging based Framework for Few-Shot Relation Extraction ( http://arxiv.org/abs/2208.08053v1 )

ライセンス: Link先を確認
Xukun Luo and Ping Wang(参考訳) 関係抽出(re)は、入力テキスト中の関係三重項を抽出することを指す。 既存のreのニューラルワークベースのシステムは、手作業によるラベル付きトレーニングデータに大きく依存しているが、十分なラベル付きデータが存在しないドメインは数多く存在する。 距離を基準としたマイナショット名称付きエンティティ認識手法に着想を得て,シーケンスタグ付きジョイント抽出手法に基づくマイナショットリタスクの定義を行い,タスクのためのマイナショットリフレームワークを提案する。 さらに、我々のフレームワークに2つの実際のシーケンスタグモデル(Few-shot TPLinker と Few-shot BiTT)を適用し、パブリックデータセットから構築された2つの数ショットREタスクに対して、しっかりとした結果を得る。

Relation Extraction (RE) refers to extracting the relation triples in the input text. Existing neural work based systems for RE rely heavily on manually labeled training data, but there are still a lot of domains where sufficient labeled data does not exist. Inspired by the distance-based few-shot named entity recognition methods, we put forward the definition of the few-shot RE task based on the sequence tagging joint extraction approaches, and propose a few-shot RE framework for the task. Besides, we apply two actual sequence tagging models to our framework (called Few-shot TPLinker and Few-shot BiTT), and achieves solid results on two few-shot RE tasks constructed from a public dataset.
翻訳日:2022-08-18 12:15:54 公開日:2022-08-17
# 位置認識の異なる長文文書の理解

Understanding Long Documents with Different Position-Aware Attentions ( http://arxiv.org/abs/2208.08201v1 )

ライセンス: Link先を確認
Hai Pham, Guoxin Wang, Yijuan Lu, Dinei Florencio, Cha Zhang(参考訳) 文書理解におけるいくつかの成功にもかかわらず、長い文書理解のための実践的なタスクは、計算のいくつかの課題と、長いマルチモーダル入力を効率的に吸収する方法のために、ほとんど未熟である。 現在のトランスフォーマーベースのアプローチのほとんどは、短い文書にのみ対応し、禁忌な計算とメモリ制限のため、単なるテキスト情報のみを注意に用いている。 これらの問題に長い文書理解で対処するために、1dと新しい2d位置認識の注意を本質的に短縮したコンテキストで扱うための異なるアプローチを検討します。 実験の結果,提案手法は様々な評価指標に基づき,この課題に有益であることがわかった。 さらに,本モデルでは注目度のみの変更を行い,任意のトランスフォーマーアーキテクチャに容易に適用可能である。

Despite several successes in document understanding, the practical task for long document understanding is largely under-explored due to several challenges in computation and how to efficiently absorb long multimodal input. Most current transformer-based approaches only deal with short documents and employ solely textual information for attention due to its prohibitive computation and memory limit. To address those issues in long document understanding, we explore different approaches in handling 1D and new 2D position-aware attention with essentially shortened context. Experimental results show that our proposed models have advantages for this task based on various evaluation metrics. Furthermore, our model makes changes only to the attention and thus can be easily adapted to any transformer-based architecture.
翻訳日:2022-08-18 12:15:41 公開日:2022-08-17
# プレトレーニングシーケンス・ツー・シークエンスモデルを用いた病院進行ノートからの患者問題の要約

Summarizing Patients Problems from Hospital Progress Notes Using Pre-trained Sequence-to-Sequence Models ( http://arxiv.org/abs/2208.08408v1 )

ライセンス: Link先を確認
Yanjun Gao, Dmitry Dligach, Timothy Miller, Dongfang Xu, Matthew M. Churpek, Majid Afshar(参考訳) 自然言語処理手法を用いて患者の主要な問題を日々の進捗ノートから自動的に要約することは、病院設定における情報や認知的過負荷と戦うのに役立つ。 問題リストの要約には、臨床文書を理解し、抽象化し、生成するモデルが必要である。 本研究は,入院時に提供者の進捗記録からの入力を用いて,患者の日常ケア計画における課題リストを作成することを目的とした,新たなNLPタスクを提案する。 本稿では,T5とBARTの2つの最先端セq2seqトランスアーキテクチャの性能について検討する。 我々は,MIMIC(Message Information Mart for Intensive Care)-IIIで公開されている電子健康記録の進歩ノートの進捗ノートの上に構築されたコーパスを提供する。 T5とBARTは、一般的なドメインテキストに基づいて訓練され、医療用語や知識への露出を高めるために、データ拡張法とドメイン適応事前学習法を試行する。 評価方法はROUGE、BERTScore、文章埋め込みにおけるコサイン類似性、医療概念に関するFスコアなどである。 その結果,t5はルールベースシステムや一般ドメイン事前学習言語モデルと比較して有意な性能向上を達成し,問題要約タスクに取り組むための有望な方向を示している。

Automatically summarizing patients' main problems from daily progress notes using natural language processing methods helps to battle against information and cognitive overload in hospital settings and potentially assists providers with computerized diagnostic decision support. Problem list summarization requires a model to understand, abstract, and generate clinical documentation. In this work, we propose a new NLP task that aims to generate a list of problems in a patient's daily care plan using input from the provider's progress notes during hospitalization. We investigate the performance of T5 and BART, two state-of-the-art seq2seq transformer architectures, in solving this problem. We provide a corpus built on top of progress notes from publicly available electronic health record progress notes in the Medical Information Mart for Intensive Care (MIMIC)-III. T5 and BART are trained on general domain text, and we experiment with a data augmentation method and a domain adaptation pre-training method to increase exposure to medical vocabulary and knowledge. Evaluation methods include ROUGE, BERTScore, cosine similarity on sentence embedding, and F-score on medical concepts. Results show that T5 with domain adaptive pre-training achieves significant performance gains compared to a rule-based system and general domain pre-trained language models, indicating a promising direction for tackling the problem summarization task.
翻訳日:2022-08-18 12:15:28 公開日:2022-08-17
# 時間フライによる顔の老化が合成データによる認識性能に与える影響の分析

Time flies by: Analyzing the Impact of Face Ageing on the Recognition Performance with Synthetic Data ( http://arxiv.org/abs/2208.08207v1 )

ライセンス: Link先を確認
Marcel Grimmer, Haoyu Zhang, Raghavendra Ramachandra, Kiran Raja, Christoph Busch(参考訳) 合成画像合成の進歩により、高分解能およびフォトリアリズムの顔画像の生成が可能となった。 生体計測アプリケーションにおいて、合成データを使用する主な動機は、そのような機密情報を処理する際のプライバシーリスクを低減しつつ、公開可能な生体データ不足を解決することである。 これらの利点は, 顔の老化と最近の顔の年齢変化アルゴリズムをシミュレートし, 交配サンプルを生成し, 老化がオープンソースの生体認証システムの性能に与える影響について検討することで生かされる。 さらに、実データセットを用いて、生体計測性能を合成ドメインと比較し、短期的老化の効果を評価する。 本研究の主目的は,1~5年間の短期年齢が一般認知能力にわずかに影響を及ぼすことである。 しかし、20歳以上の年齢差のある交尾顔の正確な検証は依然として大きな課題であり、さらなる調査が必要である。

The vast progress in synthetic image synthesis enables the generation of facial images in high resolution and photorealism. In biometric applications, the main motivation for using synthetic data is to solve the shortage of publicly-available biometric data while reducing privacy risks when processing such sensitive information. These advantages are exploited in this work by simulating human face ageing with recent face age modification algorithms to generate mated samples, thereby studying the impact of ageing on the performance of an open-source biometric recognition system. Further, a real dataset is used to evaluate the effects of short-term ageing, comparing the biometric performance to the synthetic domain. The main findings indicate that short-term ageing in the range of 1-5 years has only minor effects on the general recognition performance. However, the correct verification of mated faces with long-term age differences beyond 20 years poses still a significant challenge and requires further investigation.
翻訳日:2022-08-18 12:15:05 公開日:2022-08-17
# ノベルティの程度は、新しいクラス検索のための半教師付き表現学習にどのように影響するか?

How does the degree of novelty impacts semi-supervised representation learning for novel class retrieval? ( http://arxiv.org/abs/2208.08217v1 )

ライセンス: Link先を確認
Quentin Leroy, Olivier Buisson, Alexis Joly(参考訳) ディープネットワークを用いた教師付き表現学習は、トレーニングクラスに過度に適合する傾向にあり、新しいクラスへの一般化は難しい問題である。 同じトレーニングクラスのホールドアウトイメージに学習した埋め込みを評価することが一般的である。 しかし、実際のアプリケーションでは、新しいソースからデータが得られ、新しいクラスが生まれる可能性が高い。 半教師付きでトレーニングセットに新しいクラスのラベルなし画像を組み込むことは,バニラ教師付き表現と比較して,新しいクラス画像の効率的な検索に有益であると仮定した。 この仮説を包括的に検証するために,データセットをランダムに,あるいは意味的に分類し,基本クラスと新規クラス間の共有意味論を最小化することにより,新規クラスの新規性を変化させる独自の評価手法を提案する。 この評価手順により、新しいクラスラベルに盲目的に表現を訓練し、ベースクラスまたは新規クラスの検索における凍結表現を評価することができる。 セマンティクスのギャップが大きくなると,バニラの教師付き表現はより新しいクラスを検索するのに不足することがわかった。 半教師付きアルゴリズムは、このパフォーマンスギャップを部分的にブリッジできるが、改善の余地は多い。

Supervised representation learning with deep networks tends to overfit the training classes and the generalization to novel classes is a challenging question. It is common to evaluate a learned embedding on held-out images of the same training classes. In real applications however, data comes from new sources and novel classes are likely to arise. We hypothesize that incorporating unlabelled images of novel classes in the training set in a semi-supervised fashion would be beneficial for the efficient retrieval of novel-class images compared to a vanilla supervised representation. To verify this hypothesis in a comprehensive way, we propose an original evaluation methodology that varies the degree of novelty of novel classes by partitioning the dataset category-wise either randomly, or semantically, i.e. by minimizing the shared semantics between base and novel classes. This evaluation procedure allows to train a representation blindly to any novel-class labels and evaluate the frozen representation on the retrieval of base or novel classes. We find that a vanilla supervised representation falls short on the retrieval of novel classes even more so when the semantics gap is higher. Semi-supervised algorithms allow to partially bridge this performance gap but there is still much room for improvement.
翻訳日:2022-08-18 12:14:51 公開日:2022-08-17
# マルチモーダルプレゼンテーションデータセット:教育スライドにおけるマルチモーダル理解

Multimodal Lecture Presentations Dataset: Understanding Multimodality in Educational Slides ( http://arxiv.org/abs/2208.08080v1 )

ライセンス: Link先を確認
Dong Won Lee, Chaitanya Ahuja, Paul Pu Liang, Sanika Natu, Louis-Philippe Morency(参考訳) 講義スライドのプレゼンテーションは、学生に最適な知識を伝達するために、テキストと音声を伴う図形を含む一連のページを構築し、慎重に提示する。 マルチメディアと心理学におけるこれまでの研究は、講義のプレゼンテーションの有効性をマルチモーダル性に限定している。 知的教師アシスタントとしての学習を支援するAI開発に向けたステップとして,学習内容のマルチモーダル理解における機械学習モデルの能力をテストする大規模ベンチマークとして,マルチモーダル講義プレゼンテーションデータセットを導入する。 このデータセットには、180時間以上のビデオと9000時間以上のスライドを並べたスライドと音声言語が含まれており、様々な科目(コンピュータ科学、歯科医学、生物学など)から10人の講師が参加している。 本稿では,AIエージェントへのステップストーンとしてデザインされた2つの研究課題について紹介する。 これら2つの研究タスクの実装を支援し,その上で最先端のモデルを評価するための手動アノテーションを提供する。 ベースラインと人的学生のパフォーマンスを比較すると,(1)スライドと音声テキスト間の弱いクロスモーダルアライメント,(2)新しいビジュアルメディアの学習,(3)技術的言語,(4)長距離シーケンスにおいて,現在のモデルが苦労していることが分かる。 この問題に対処するために,既存のアプローチよりも効果的なマルチインスタンス学習損失をトレーニングしたマルチモーダルトランスフォーマーであるPolyViLTを導入する。 最後に,教育プレゼンテーションのマルチモーダル理解における課題と機会について概説する。

Lecture slide presentations, a sequence of pages that contain text and figures accompanied by speech, are constructed and presented carefully in order to optimally transfer knowledge to students. Previous studies in multimedia and psychology attribute the effectiveness of lecture presentations to their multimodal nature. As a step toward developing AI to aid in student learning as intelligent teacher assistants, we introduce the Multimodal Lecture Presentations dataset as a large-scale benchmark testing the capabilities of machine learning models in multimodal understanding of educational content. Our dataset contains aligned slides and spoken language, for 180+ hours of video and 9000+ slides, with 10 lecturers from various subjects (e.g., computer science, dentistry, biology). We introduce two research tasks which are designed as stepping stones towards AI agents that can explain (automatically captioning a lecture presentation) and illustrate (synthesizing visual figures to accompany spoken explanations) educational content. We provide manual annotations to help implement these two research tasks and evaluate state-of-the-art models on them. Comparing baselines and human student performances, we find that current models struggle in (1) weak crossmodal alignment between slides and spoken text, (2) learning novel visual mediums, (3) technical language, and (4) long-range sequences. Towards addressing this issue, we also introduce PolyViLT, a multimodal transformer trained with a multi-instance learning loss that is more effective than current approaches. We conclude by shedding light on the challenges and opportunities in multimodal understanding of educational presentations.
翻訳日:2022-08-18 12:12:13 公開日:2022-08-17
# HELP ME THINK: モデルでカスタマイズされたコンテンツを作成する非専門家のための簡単なプロンプト戦略

HELP ME THINK: A Simple Prompting Strategy for Non-experts to Create Customized Content with Models ( http://arxiv.org/abs/2208.08232v1 )

ライセンス: Link先を確認
Swaroop Mishra and Elnaz Nouri(参考訳) 言語モデルによって生成されたテキストの制御とコンテンツのカスタマイズは長年の課題だった。 コントロールを提供するために提案された既存のプロンプトテクニックはタスク固有であり、汎用性が欠如している。 例や説明,指示など,これらのテクニックに関連する労力は,非専門家ユーザへの採用をさらに制限している。 本稿では,GPT3が関連する質問のセットを質問し,そのタスクの実行にユーザ回答を活用することで,専門家以外のユーザを支援するための簡単なプロンプト戦略HELP ME THINKを提案する。 この手法の有効性を実証することは、様々なタスクについて考えるのに役立ちます。 具体的には、平均的な人間には難しい作業に焦点を合わせ、実行にはかなりの思考が必要である。 私たちの仕事が,大規模な言語モデルのパワーを活用する非慣習的な方法の開発を奨励してくれることを願っています。

Controlling the text generated by language models and customizing the content has been a long-standing challenge. Existing prompting techniques proposed in pursuit of providing control are task-specific and lack generality; this provides overwhelming choices for non-expert users to find a suitable method for their task. The effort associated with those techniques, such as in writing examples, explanations, instructions, etc. further limits their adoption among non-expert users. In this paper, we propose a simple prompting strategy HELP ME THINK where we encourage GPT3 to help non-expert users by asking a set of relevant questions and leveraging user answers to execute the task. We demonstrate the efficacy of our technique HELP ME THINK on a variety of tasks. Specifically, we focus on tasks that are hard for average humans and require significant thinking to perform. We hope our work will encourage the development of unconventional ways to harness the power of large language models.
翻訳日:2022-08-18 12:11:46 公開日:2022-08-17
# illume: jabberとのインタラクションによるビジョン言語モデルの合理化

ILLUME: Rationalizing Vision-Language Models by Interacting with their Jabber ( http://arxiv.org/abs/2208.08241v1 )

ライセンス: Link先を確認
Manuel Brac, Patrick Schramowski, Bj\"orn Deiseroth and Kristian Kersting(参考訳) 事前学習された言語モデルからのブートストラップは、イメージキャプションや視覚的質問応答といったタスクのための基礎視覚言語モデル(VLM)を構築するための効率的なアプローチであることが証明されている。 しかし, 特定の解答に対して, モデルがユーザの理性に適合するようには, 利用できない。 画像探索-回答プロンプトが与えられた場合、VLMは複数の候補論理をサンプリングし、人間の批評家は選好選択によって最小限のフィードバックを与える。 このループはトレーニングデータを増やし、徐々にVLMの合理化能力を削ります。 我々の徹底的な実験は、ILLUMEが標準的な教師付き微調整と競合する一方で、トレーニングデータが非常に少なく、最小限のフィードバックしか必要としないことを示した。

Bootstrapping from pre-trained language models has been proven to be an efficient approach for building foundation vision-language models (VLM) for tasks such as image captioning or visual question answering. However, it is difficult-if not impossible-to utilize it to make the model conform with user's rationales for specific answers. To elicit and reinforce commonsense reasons, we propose an iterative sampling and tuning paradigm, called ILLUME, that executes the following loop: Given an image-question-answer prompt, the VLM samples multiple candidate rationales, and a human critic provides minimal feedback via preference selection, used for fine-tuning. This loop increases the training data and gradually carves out the VLM's rationalization capabilities. Our exhaustive experiments demonstrate that ILLUME is competitive with standard supervised fine-tuning while using significantly fewer training data and only requiring minimal feedback.
翻訳日:2022-08-18 12:11:30 公開日:2022-08-17
# 生涯の言語学習を強化するためにまず質問する

Ask Question First for Enhancing Lifelong Language Learning ( http://arxiv.org/abs/2208.08367v1 )

ライセンス: Link先を確認
Han Wang, Ruiliu Fu, Xuejun Zhang, Jun Zhou, Qingwei Zhao(参考訳) Lifelong言語学習は、従来のタスクの知識を維持しながら、NLPタスクをストリームすることを目的としている。 言語モデルとデータフリーな制約アプローチに基づく以前の研究は、異なるタスクに対してすべてのデータを"begin token (\textit{B}) + context (\textit{C}) + question (\textit{Q}) + answer (\textit{A})"としてフォーマットすることを模索してきた。 しかし、前のタスクの擬似データが不足している場合、その前のタスクの擬似データが、(1)疑似データに対するタスク対応を生成するのに困難であり、(2) \textit{a} が \textit{a} と \textit{c} が \textit{q} によって分離される場合、(2) \textit{c} の情報は \textit{a} を生成する前に減少する。 そこで本研究では,新しいデータ形式 "\textit{bqca}" と,従来課題の疑似質問を学習するための新しいトレーニングタスクを含む,ask question first and replay question (aqf-rq)を提案する。 実験結果から,タスク境界が明確かつ不明瞭である場合には,AQF-RQにより,対応するタスクにマッチする疑似データを容易に生成でき,十分な疑似データと不十分な疑似データの両方に対してより堅牢であることが示された。 AQF-RQ はマルチタスク学習よりも 0.36 %低い性能しか達成できない。

Lifelong language learning aims to stream learning NLP tasks while retaining knowledge of previous tasks. Previous works based on the language model and following data-free constraint approaches have explored formatting all data as "begin token (\textit{B}) + context (\textit{C}) + question (\textit{Q}) + answer (\textit{A})" for different tasks. However, they still suffer from catastrophic forgetting and are exacerbated when the previous task's pseudo data is insufficient for the following reasons: (1) The model has difficulty generating task-corresponding pseudo data, and (2) \textit{A} is prone to error when \textit{A} and \textit{C} are separated by \textit{Q} because the information of the \textit{C} is diminished before generating \textit{A}. Therefore, we propose the Ask Question First and Replay Question (AQF-RQ), including a novel data format "\textit{BQCA}" and a new training task to train pseudo questions of previous tasks. Experimental results demonstrate that AQF-RQ makes it easier for the model to generate more pseudo data that match corresponding tasks, and is more robust to both sufficient and insufficient pseudo-data when the task boundary is both clear and unclear. AQF-RQ can achieve only 0.36\% lower performance than multi-task learning.
翻訳日:2022-08-18 12:10:55 公開日:2022-08-17
# Commander's Intent: 戦略的プレイにおけるヒューマンAIタスク仕様のためのデータセットとモデリングアプローチ

Commander's Intent: A Dataset and Modeling Approach for Human-AI Task Specification in Strategic Play ( http://arxiv.org/abs/2208.08374v1 )

ライセンス: Link先を確認
Pradyumna Tambwekar, Nathan Vaska, Lakshita Dodeja, Matthew Gombolay(参考訳) 効果的なHuman-AIチームには、チームの目標と、エージェントの運用に必要な制約を伝える能力が必要です。 チームの共通の意図や運用基準を指定する能力を提供することで、aiエージェントは、現在のチームの特定の願望に対応しながら、プライマリ機能を実行することが可能になります。 エージェントに、言語やデモを通じてタスクを実行するように指示する作業は行われているが、以前の作業では、チームが指定したパラメータ内で操作できるエージェントの構築に重点を置いていない。 さらに悪いことに、人間が非構造的、自然主義的な言語を通じて仕様を提供することを可能にする研究の難しさがある。 本稿では,自律エージェントを調節・評価するための足場として,目標と制約の利用を提案する。 我々は,新たなデータセットとそれに関連するデータ収集プロトコルを提示することにより,ボードゲームリスクに対して,人間参加者が開発する特定の戦略に対応する目標と制約に言語記述をマッピングする。 最先端言語モデルと拡張手順を活用して,非構造化戦略記述から目標と制約を識別する機械学習フレームワークを開発した。 このアプローチを実証的に検証するために、データセットの人間ベースラインを確立するために、人間オブジェクトの研究を行います。 我々の機械学習アーキテクチャは、同じ機械翻訳タスク(F(1,272.53) = 17.025, p < 0.001)を遂行する人間よりも、非構造化言語記述を戦略仕様に解釈できる。

Effective Human-AI teaming requires the ability to communicate the goals of the team and constraints under which you need the agent to operate. Providing the ability to specify the shared intent or operation criteria of the team can enable an AI agent to perform its primary function while still being able to cater to the specific desires of the current team. While significant work has been conducted to instruct an agent to perform a task, via language or demonstrations, prior work lacks a focus on building agents which can operate within the parameters specified by a team. Worse yet, there is a dearth of research pertaining to enabling humans to provide their specifications through unstructured, naturalist language. In this paper, we propose the use of goals and constraints as a scaffold to modulate and evaluate autonomous agents. We contribute to this field by presenting a novel dataset, and an associated data collection protocol, which maps language descriptions to goals and constraints corresponding to specific strategies developed by human participants for the board game Risk. Leveraging state-of-the-art language models and augmentation procedures, we develop a machine learning framework which can be used to identify goals and constraints from unstructured strategy descriptions. To empirically validate our approach we conduct a human-subjects study to establish a human-baseline for our dataset. Our results show that our machine learning architecture is better able to interpret unstructured language descriptions into strategy specifications than human raters tasked with performing the same machine translation task (F(1,272.53) = 17.025, p < 0.001).
翻訳日:2022-08-18 12:10:21 公開日:2022-08-17
# A*に基づく因果発見におけるドメイン知識

Domain Knowledge in A*-Based Causal Discovery ( http://arxiv.org/abs/2208.08247v1 )

ライセンス: Link先を確認
Steven Kleinegesse, Andrew R. Lawrence, Hana Chockler(参考訳) 因果発見は、観測データから因果関係を発見したい科学者や実践者にとって重要なツールとなっている。 因果的発見に対するほとんどの以前のアプローチは、専門家のドメイン知識は利用できないと暗黙的に仮定しているが、実践者は、事前の経験からそのようなドメイン知識を提供することができる。 最近の研究はドメイン知識を制約に基づく因果発見に取り入れている。 しかし、そのような制約に基づく手法の大半は因果的忠実さを前提としており、実際に頻繁に違反することが示されている。 その結果、a*ベースの手法のような因果的忠実性を仮定しない正確な検索スコアに基づく因果発見法に再び注目が集まっている。 しかし、これらの手法はドメイン知識の文脈では考慮されていない。 本研究では,複数のドメイン知識をa*に基づく因果発見に効率的に統合することに注力する。 そこで我々は,ドメイン知識がグラフ探索空間を削減し,計算能力の潜在値の分析を行う方法について論じ,解説する。 本研究は,A*に基づく因果発見を劇的に高速化し,その性能と実用性を向上させることを示し,合成データと実データの実験によってこれらの知見を支持した。

Causal discovery has become a vital tool for scientists and practitioners wanting to discover causal relationships from observational data. While most previous approaches to causal discovery have implicitly assumed that no expert domain knowledge is available, practitioners can often provide such domain knowledge from prior experience. Recent work has incorporated domain knowledge into constraint-based causal discovery. The majority of such constraint-based methods, however, assume causal faithfulness, which has been shown to be frequently violated in practice. Consequently, there has been renewed attention towards exact-search score-based causal discovery methods, which do not assume causal faithfulness, such as A*-based methods. However, there has been no consideration of these methods in the context of domain knowledge. In this work, we focus on efficiently integrating several types of domain knowledge into A*-based causal discovery. In doing so, we discuss and explain how domain knowledge can reduce the graph search space and then provide an analysis of the potential computational gains. We support these findings with experiments on synthetic and real data, showing that even small amounts of domain knowledge can dramatically speed up A*-based causal discovery and improve its performance and practicality.
翻訳日:2022-08-18 12:09:54 公開日:2022-08-17
# NLP問題に対する Transformer Vs. MLP-Mixer Exponential Expressive Gap

Transformer Vs. MLP-Mixer Exponential Expressive Gap For NLP Problems ( http://arxiv.org/abs/2208.08191v1 )

ライセンス: Link先を確認
Dan Navon, Alex M. Bronstein(参考訳) 視覚変換器は様々な視覚タスクで広く使われている。 一方、MLPミキサーからmlpベースのアーキテクチャを使って同様の性能を達成しようとする作業は、他にもある。 興味深いことに、これまでNLPタスクに使用するという報告はありませんでした。 本稿では,複数の入力間の依存関係を同時にモデル化するmlpベースのアーキテクチャの表現力を分析し,注意とmlpに基づくメカニズムの指数関数的ギャップを示す。 以上の結果から,NLP問題において,mlpが注意に基づくメカニズムと競合することができないという理論的な説明が得られた。また,視覚タスクのパフォーマンスギャップは,複数の異なる場所間の依存性のモデル化において,mlpの相対的弱さに起因する可能性も示唆された。

Vision-Transformers are widely used in various vision tasks. Meanwhile, there is another line of works starting with the MLP-mixer trying to achieve similar performance using mlp-based architectures. Interestingly, until now none reported using them for NLP tasks, additionally until now non of those mlp-based architectures claimed to achieve state-of-the-art in vision tasks. In this paper, we analyze the expressive power of mlp-based architectures in modeling dependencies between multiple different inputs simultaneously, and show an exponential gap between the attention and the mlp-based mechanisms. Our results suggest a theoretical explanation for the mlp inability to compete with attention-based mechanisms in NLP problems, they also suggest that the performance gap in vision tasks may be due to the mlp relative weakness in modeling dependencies between multiple different locations, and that combining smart input permutations to the mlp architectures may not suffice alone to close the performance gap.
翻訳日:2022-08-18 12:09:35 公開日:2022-08-17
# Paint2Pix:インタラクティブペイントに基づくプログレッシブな画像合成と編集

Paint2Pix: Interactive Painting based Progressive Image Synthesis and Editing ( http://arxiv.org/abs/2208.08092v1 )

ライセンス: Link先を確認
Jaskirat Singh, Liang Zheng, Cameron Smith, Jose Echevarria(参考訳) ユーザ記述による制御可能な画像合成は、コンピュータビジョンコミュニティに強い関心を持つトピックである。 本稿では,不完全かつ原始的な人間の絵画から光現実的画像合成の問題を初めて研究する。 特に,未完成な人間の絵画の多様体からリアルなレンダリングへのマッピングを学習することにより,未完成のブラシストローク入力から「ユーザが描きたいもの」を予測し,適応させるアプローチのペイント2ピクセルを提案する。 近年の自律的絵画エージェントの研究と併用して、ペイント2ピクセルをスクラッチからプログレッシブな画像合成に利用できることを示す。 この過程で、Paint2pixは、初心者のユーザが所望の画像出力を段階的に合成し、粗いユーザのスクリブルを少なくして、合成プロセスの軌道を正確に制御する。 さらに,本手法は,実際の画像編集に驚くほど便利なアプローチであり,複数個所のブラシストロークを付加することで,ユーザが様々なカスタマイズされた細かな編集を行えるようにしている。 追加ビデオとデモはhttps://1jsingh.github.io/paint2pixで利用可能

Controllable image synthesis with user scribbles is a topic of keen interest in the computer vision community. In this paper, for the first time we study the problem of photorealistic image synthesis from incomplete and primitive human paintings. In particular, we propose a novel approach paint2pix, which learns to predict (and adapt) "what a user wants to draw" from rudimentary brushstroke inputs, by learning a mapping from the manifold of incomplete human paintings to their realistic renderings. When used in conjunction with recent works in autonomous painting agents, we show that paint2pix can be used for progressive image synthesis from scratch. During this process, paint2pix allows a novice user to progressively synthesize the desired image output, while requiring just few coarse user scribbles to accurately steer the trajectory of the synthesis process. Furthermore, we find that our approach also forms a surprisingly convenient approach for real image editing, and allows the user to perform a diverse range of custom fine-grained edits through the addition of only a few well-placed brushstrokes. Supplemental video and demo are available at https://1jsingh.github.io/paint2pix
翻訳日:2022-08-18 12:09:14 公開日:2022-08-17
# DLCFT: インクリメンタル学習のための深い線形連続ファインチューニング

DLCFT: Deep Linear Continual Fine-Tuning for General Incremental Learning ( http://arxiv.org/abs/2208.08112v1 )

ライセンス: Link先を確認
Hyounguk Shon, Janghyeon Lee, Seung Hwan Kim, Junmo Kim(参考訳) 事前学習された表現は、現代のディープラーニングの成功の鍵となる要素の1つである。 しかし、継続学習手法に関する既存の研究は、主にスクラッチから漸進的にモデルを学習することに焦点を当てている。 本稿では,事前学習された表現からモデルを継続的に微調整する,インクリメンタル学習の代替フレームワークについて検討する。 本手法は, ニューラルネットワークの線形化手法を利用して, 単純かつ効果的な連続学習を行う。 これにより、2次パラメータ正規化法を最適連続学習ポリシーとして位置づける線形モデルの設計が可能であり、同時にニューラルネットワークの性能も向上することを示す。 また,提案アルゴリズムにより,パラメータ正規化手法をクラス増分問題に適用できることを示す。 さらに、ewcのような既存のパラメータ空間正規化アルゴリズムが、クロスエントロピー損失を訓練したニューラルネットワークに過小評価される理由を理論的に提示する。 提案手法は,画像分類タスクにおいて,連続的な微調整性能を保ちながら,忘れを防止できることを示す。 本手法を総合的な連続学習環境に適用できることを示すため,本手法をデータインクリメンタル,タスクインクリメンタル,クラスインクリメンタル学習問題において評価する。

Pre-trained representation is one of the key elements in the success of modern deep learning. However, existing works on continual learning methods have mostly focused on learning models incrementally from scratch. In this paper, we explore an alternative framework to incremental learning where we continually fine-tune the model from a pre-trained representation. Our method takes advantage of linearization technique of a pre-trained neural network for simple and effective continual learning. We show that this allows us to design a linear model where quadratic parameter regularization method is placed as the optimal continual learning policy, and at the same time enjoying the high performance of neural networks. We also show that the proposed algorithm enables parameter regularization methods to be applied to class-incremental problems. Additionally, we provide a theoretical reason why the existing parameter-space regularization algorithms such as EWC underperform on neural networks trained with cross-entropy loss. We show that the proposed method can prevent forgetting while achieving high continual fine-tuning performance on image classification tasks. To show that our method can be applied to general continual learning settings, we evaluate our method in data-incremental, task-incremental, and class-incremental learning problems.
翻訳日:2022-08-18 12:08:54 公開日:2022-08-17
# 閾値最適化による複数サブタスクからの信頼性決定:野生におけるコンテンツモデレーション

Reliable Decision from Multiple Subtasks through Threshold Optimization: Content Moderation in the Wild ( http://arxiv.org/abs/2208.07522v2 )

ライセンス: Link先を確認
Donghyun Son, Byounggyu Lew, Kwanghee Choi, Yongsu Baek, Seungwoo Choi, Beomjun Shin, Sungjoo Ha, Buru Chang(参考訳) ソーシャルメディアプラットフォームは、コンテンツモデレーションを通じて有害なコンテンツからユーザーを守るのに苦労している。 これらのプラットフォームは最近、大量のユーザー生成コンテンツに毎日対処するために機械学習モデルを活用している。 モデレーション政策は国や製品の種類によって異なるため、政策ごとにモデルを訓練し展開することが一般的である。 しかし、このアプローチは非常に非効率であり、特にポリシーが変更され、データセットの再ラベル付けと、シフトしたデータ分散のモデル再トレーニングが必要になる。 このコストの非効率を緩和するために、ソーシャルメディアプラットフォームでは、未成年者、失礼なジェスチャー、武器の存在を予測するなど、複数のサブタスクの予測スコアを提供するサードパーティのコンテンツモデレーションサービスを採用することが多い。 しかしながら、特定のターゲットポリシーに対する複数のサブタスクの予測スコアから信頼できる自動モデレーション決定を行うことは、まだ広く検討されていない。 本研究では,コンテンツモデレーションの現実シナリオを定式化し,複数のサブタスクの最適しきい値を求めるための簡易かつ効果的なしきい値最適化手法を導入し,信頼性の高いモデレーション決定をコスト効率よく行う。 広範な実験により,既存のしきい値最適化法やヒューリスティックスに比べて,コンテンツモデレーションの性能が向上することを示した。

Social media platforms struggle to protect users from harmful content through content moderation. These platforms have recently leveraged machine learning models to cope with the vast amount of user-generated content daily. Since moderation policies vary depending on countries and types of products, it is common to train and deploy the models per policy. However, this approach is highly inefficient, especially when the policies change, requiring dataset re-labeling and model re-training on the shifted data distribution. To alleviate this cost inefficiency, social media platforms often employ third-party content moderation services that provide prediction scores of multiple subtasks, such as predicting the existence of underage personnel, rude gestures, or weapons, instead of directly providing final moderation decisions. However, making a reliable automated moderation decision from the prediction scores of the multiple subtasks for a specific target policy has not been widely explored yet. In this study, we formulate real-world scenarios of content moderation and introduce a simple yet effective threshold optimization method that searches the optimal thresholds of the multiple subtasks to make a reliable moderation decision in a cost-effective way. Extensive experiments demonstrate that our approach shows better performance in content moderation compared to existing threshold optimization methods and heuristics.
翻訳日:2022-08-18 10:34:57 公開日:2022-08-17
# Conv-Adapter:ConvNetのパラメータ効率向上学習

Conv-Adapter: Exploring Parameter Efficient Transfer Learning for ConvNets ( http://arxiv.org/abs/2208.07463v2 )

ライセンス: Link先を確認
Hao Chen, Ran Tao, Han Zhang, Yidong Wang, Wei Ye, Jindong Wang, Guosheng Hu, Marios Savvides(参考訳) パラメータ効率的なチューニング(PET)手法は自然言語処理(NLP)タスクのトランスフォーマーアーキテクチャにおいて大きな可能性を示しているが、その効果はコンピュータビジョン(CV)タスクの大規模ConvNetsではまだ実証されていない。 本稿では,ConvNets用に設計されたPETモジュールであるConv-Adapterを提案する。 Conv-Adapterは軽量で、ドメイン変換可能で、アーキテクチャに依存しない。 下流のタスクを転送する際、Conv-Adapterは、トレーニング済みパラメータを凍結したまま、バックボーンの中間表現にタスク固有の特徴変調を学習する。 例えば、ResNet50の完全な微調整パラメータをわずか3.5%だけ導入することで、Conv-Adapterは従来のPETベースラインメソッドを上回り、さまざまなドメインの23の分類タスクにおける完全な微調整のパフォーマンスを同等または上回っている。 また、数発の分類では優れた性能を示し、平均マージンは3.39%である。 分類以外にも、Conv-Adapterは50%以上のパラメータを削減できるが、従来のフル微調整に匹敵するパフォーマンスで、検出および分割タスクに一般化することができる。

While parameter efficient tuning (PET) methods have shown great potential with transformer architecture on Natural Language Processing (NLP) tasks, their effectiveness is still under-studied with large-scale ConvNets on Computer Vision (CV) tasks. This paper proposes Conv-Adapter, a PET module designed for ConvNets. Conv-Adapter is light-weight, domain-transferable, and architecture-agnostic with generalized performance on different tasks. When transferring on downstream tasks, Conv-Adapter learns tasks-specific feature modulation to the intermediate representations of backbone while keeping the pre-trained parameters frozen. By introducing only a tiny amount of learnable parameters, e.g., only 3.5% full fine-tuning parameters of ResNet50, Conv-Adapter outperforms previous PET baseline methods and achieves comparable or surpasses the performance of full fine-tuning on 23 classification tasks of various domains. It also presents superior performance on few-shot classifications, with an average margin of 3.39%. Beyond classification, Conv-Adapter can generalize to detection and segmentation tasks with more than 50% reduction of parameters but comparable performance to the traditional full fine-tuning.
翻訳日:2022-08-18 10:34:01 公開日:2022-08-17
# スコアに基づく拡散はアニール化重要度サンプリングを満たす

Score-Based Diffusion meets Annealed Importance Sampling ( http://arxiv.org/abs/2208.07698v2 )

ライセンス: Link先を確認
Arnaud Doucet, Will Grathwohl, Alexander G. D. G. Matthews, Heiko Strathmann(参考訳) 導入から20年以上経っても、Annealed Importance Smpling (AIS) は残差推定の最も効果的な方法の1つである。 これは、トラクタブルな初期分布と、非同次マルコフ連鎖を用いて概してシミュレートした関心のターゲット分布の間の補間する分布列に依存する。 限界確率の重要推定値を得るため、AISはマルコフ連鎖の提案を再重み付けするために拡張目標分布を導入する。 中間分布とそれに対応するマルコフカーネルを変更することで、AISが使用する提案分布の改善に多くの努力が注がれているが、AISは便利だが最適に拡張されたターゲット分布を使用している。 これによりパフォーマンスが損なわれる。 本稿では,最近のスコアベース生成モデル(sgm)の進歩を利用して,ランジュバンとハミルトニアンダイナミクスの離散化に対応するais提案の最適拡張目標分布を近似する。 本稿では,多くのベンチマーク分布と変分自動エンコーダに関する新しいAIS手順を実証する。

More than twenty years after its introduction, Annealed Importance Sampling (AIS) remains one of the most effective methods for marginal likelihood estimation. It relies on a sequence of distributions interpolating between a tractable initial distribution and the target distribution of interest which we simulate from approximately using a non-homogeneous Markov chain. To obtain an importance sampling estimate of the marginal likelihood, AIS introduces an extended target distribution to reweight the Markov chain proposal. While much effort has been devoted to improving the proposal distribution used by AIS, by changing the intermediate distributions and corresponding Markov kernels, an underappreciated issue is that AIS uses a convenient but suboptimal extended target distribution. This can hinder its performance. We here leverage recent progress in score-based generative modeling (SGM) to approximate the optimal extended target distribution for AIS proposals corresponding to the discretization of Langevin and Hamiltonian dynamics. We demonstrate these novel, differentiable, AIS procedures on a number of synthetic benchmark distributions and variational auto-encoders.
翻訳日:2022-08-18 10:33:39 公開日:2022-08-17
# ニューラルネットワークに基づく極端量子化回帰のための統一的部分解釈可能なフレームワーク

A unifying partially-interpretable framework for neural network-based extreme quantile regression ( http://arxiv.org/abs/2208.07581v2 )

ライセンス: Link先を確認
Jordan Richards and Rapha\"el Huser(参考訳) 多くの環境環境でのリスク管理には、極端な出来事を引き起こすメカニズムを理解する必要がある。 このようなリスクを定量化するための有用な指標は、気候、生物圏、環境状態などの予測変数に条件づけられた応答変数の極端な定量値である。 通常、これらの量子は観測可能なデータの範囲外にあり、推定には回帰フレームワーク内のパラメトリック極値モデルの仕様が必要となる。 この文脈における古典的なアプローチは、予測変数と応答変数の間の線形あるいは付加的な関係を利用しており、その予測能力または計算効率のどちらかに苦しむ。 本稿では,複雑な非線形関係を捉え,高次元データによくスケールできる人工ニュートラルネットワークを用いて,極端に質的回帰を行うための新しい手法を提案する。 ニューラルネットワークの「ブラックボックス」の性質は、実践者がしばしば好む解釈可能性の望ましい特性を欠いていることを意味している。したがって、線形で付加的なモデルとディープラーニングを組み合わせて、統計的推論に使用できるが高い予測精度を維持する部分解釈可能なニューラルネットワークを作成する。 この手法を補完するために,分布の一般化された極値クラスに関連する有限低端点問題を克服する極値の新しい点過程モデルを提案する。 この統一フレームワークの有効性は,高次元予測器セットを用いた米国のワイルドファイアデータに示され,線形回帰法およびスプライン回帰法に比べて予測性能が大幅に向上することを示す。

Risk management in many environmental settings requires an understanding of the mechanisms that drive extreme events. Useful metrics for quantifying such risk are extreme quantiles of response variables conditioned on predictor variables that describe e.g., climate, biosphere and environmental states. Typically these quantiles lie outside the range of observable data and so, for estimation, require specification of parametric extreme value models within a regression framework. Classical approaches in this context utilise linear or additive relationships between predictor and response variables and suffer in either their predictive capabilities or computational efficiency; moreover, their simplicity is unlikely to capture the truly complex structures that lead to the creation of extreme wildfires. In this paper, we propose a new methodological framework for performing extreme quantile regression using artificial neutral networks, which are able to capture complex non-linear relationships and scale well to high-dimensional data. The "black box" nature of neural networks means that they lack the desirable trait of interpretability often favoured by practitioners; thus, we combine aspects of linear, and additive, models with deep learning to create partially interpretable neural networks that can be used for statistical inference but retain high prediction accuracy. To complement this methodology, we further propose a novel point process model for extreme values which overcomes the finite lower-endpoint problem associated with the generalised extreme value class of distributions. Efficacy of our unified framework is illustrated on U.S. wildfire data with a high-dimensional predictor set and we illustrate vast improvements in predictive performance over linear and spline-based regression techniques.
翻訳日:2022-08-18 10:33:22 公開日:2022-08-17
# BERTifying Sinhala -- Sinhalaテキスト分類のための事前学習言語モデルの包括的解析

BERTifying Sinhala -- A Comprehensive Analysis of Pre-trained Language Models for Sinhala Text Classification ( http://arxiv.org/abs/2208.07864v2 )

ライセンス: Link先を確認
Vinura Dhananjaya, Piyumal Demotte, Surangika Ranathunga, Sanath Jayasena(参考訳) 本研究は,Sinhalaテキスト分類のための事前学習言語モデルの性能を包括的に分析する。 我々は,Sinhalaテキスト分類タスクの集合を検証した結果,XLM-R(XLM-R,LaBSE,LASER)を含む事前学習された多言語モデルのうち,XLM-Rは,Sinhalaテキスト分類において最良であることがわかった。 また,既存のSinhalaの学習済み言語モデルよりもはるかに優れている2つのRoBERTaベースのモノリンガルSinhalaモデルを事前訓練する。 これらの事前学習言語モデルは、微調整時にシンハラ文字分類の非常に強力なベースラインを設定し、微調整にラベル付きデータが不十分な状況において堅牢であることを示す。 さらに,sinhalaテキスト分類のための事前学習モデルの使用を推奨する。 また,sinhalaテキスト分類の将来研究に有用な新しい注釈付きデータセットを導入し,事前学習したモデルを公開する。

This research provides the first comprehensive analysis of the performance of pre-trained language models for Sinhala text classification. We test on a set of different Sinhala text classification tasks and our analysis shows that out of the pre-trained multilingual models that include Sinhala (XLM-R, LaBSE, and LASER), XLM-R is the best model by far for Sinhala text classification. We also pre-train two RoBERTa-based monolingual Sinhala models, which are far superior to the existing pre-trained language models for Sinhala. We show that when fine-tuned, these pre-trained language models set a very strong baseline for Sinhala text classification and are robust in situations where labeled data is insufficient for fine-tuning. We further provide a set of recommendations for using pre-trained models for Sinhala text classification. We also introduce new annotated datasets useful for future research in Sinhala text classification and publicly release our pre-trained models.
翻訳日:2022-08-18 10:32:55 公開日:2022-08-17
# aiによるエンティティのすべてのカテゴリの認識

Recognition of All Categories of Entities by AI ( http://arxiv.org/abs/2208.06590v2 )

ライセンス: Link先を確認
Hiroshi Yamakawa and Yutaka Matsuo(参考訳) 人間レベルのAIは、人間の社会に大きな影響を与える。 しかし、実現時間の見積もりは議論の余地がある。 人間レベルのAIに到達するために、特定のタスクに特化したAIシステムとは対照的に、人工知能(AGI)は技術的に意味のある長期的な目標として設定された。 しかし今や、ディープラーニングの進歩によって、その達成はますます近づいている。 近年の技術発展を考えると、人間レベルの能力を合理的な粒度にマッピングし、現在の技術範囲を特定し、未調査領域を横断する技術的課題を議論し、そのすべてを克服するタイミングを予測する「理解的技術マップアプローチ」を通じて、人間レベルのaiの完成日を議論することは有意義である。 本稿では,日常の直観と科学的実践を包含する存在論的六分儀を総合的な技術地図として捉えるための新しい議論的選択肢を提案する。 世界のモデリングのほとんどは、それをどのように解釈するかという点で、知的対象は遠方実体の認識と時間的進化の予測であり、全ての遠方実体を扱えることは合理的な目標である。 哲学と工学的認知技術の知見に基づいて、比較的近い将来、aiは人間と同じ程度に様々な実体を認識できるようになると予測する。

Human-level AI will have significant impacts on human society. However, estimates for the realization time are debatable. To arrive at human-level AI, artificial general intelligence (AGI), as opposed to AI systems that are specialized for a specific task, was set as a technically meaningful long-term goal. But now, propelled by advances in deep learning, that achievement is getting much closer. Considering the recent technological developments, it would be meaningful to discuss the completion date of human-level AI through the "comprehensive technology map approach," wherein we map human-level capabilities at a reasonable granularity, identify the current range of technology, and discuss the technical challenges in traversing unexplored areas and predict when all of them will be overcome. This paper presents a new argumentative option to view the ontological sextet, which encompasses entities in a way that is consistent with our everyday intuition and scientific practice, as a comprehensive technological map. Because most of the modeling of the world, in terms of how to interpret it, by an intelligent subject is the recognition of distal entities and the prediction of their temporal evolution, being able to handle all distal entities is a reasonable goal. Based on the findings of philosophy and engineering cognitive technology, we predict that in the relatively near future, AI will be able to recognize various entities to the same degree as humans.
翻訳日:2022-08-18 10:32:35 公開日:2022-08-17
# 3次元点雲シーンのFew-shot Semantic Segmentationのための双方向特徴グローバリゼーション

Bidirectional Feature Globalization for Few-shot Semantic Segmentation of 3D Point Cloud Scenes ( http://arxiv.org/abs/2208.06671v2 )

ライセンス: Link先を確認
Yongqiang Mao, Zonghao Guo, Xiaonan Lu, Zhiqiang Yuan, Haowen Guo(参考訳) 局所的な点雲情報をグローバル表現に変換する効果的な方法はなく、点特徴の一般化能力を妨げているため、点雲のショットセグメンテーションは依然として難しい課題である。 本研究では,点特徴量とプロトタイプベクトルの類似性を利用した双方向特徴量グローバリゼーション(bfg)手法を提案する。 po2prg (point-to-prototype globalization) により、bfg は局所点特徴をプロトタイプに集約する。 プロトタイプ・ツー・ポイントのグローバル化(Pr2PoG)により、グローバルな認識は、疎いプロトタイプから高密度な特徴への類似度重みに基づく局所的な特徴に埋め込まれる。 グローバル知覚を組み込んだ各クラスのスパースプロトタイプを1つのプロトタイプにまとめ、メートル法学習フレームワークに基づいた、わずかな3dセグメンテーションを行う。 S3DISとScanNetの大規模な実験は、BFGが最先端の手法よりも著しく優れていることを示した。

Few-shot segmentation of point cloud remains a challenging task, as there is no effective way to convert local point cloud information to global representation, which hinders the generalization ability of point features. In this study, we propose a bidirectional feature globalization (BFG) approach, which leverages the similarity measurement between point features and prototype vectors to embed global perception to local point features in a bidirectional fashion. With point-to-prototype globalization (Po2PrG), BFG aggregates local point features to prototypes according to similarity weights from dense point features to sparse prototypes. With prototype-to-point globalization (Pr2PoG), the global perception is embedded to local point features based on similarity weights from sparse prototypes to dense point features. The sparse prototypes of each class embedded with global perception are summarized to a single prototype for few-shot 3D segmentation based on the metric learning framework. Extensive experiments on S3DIS and ScanNet demonstrate that BFG significantly outperforms the state-of-the-art methods.
翻訳日:2022-08-18 10:32:12 公開日:2022-08-17
# スパースアノテーションを用いた意味対応学習

Learning Semantic Correspondence with Sparse Annotations ( http://arxiv.org/abs/2208.06974v2 )

ライセンス: Link先を確認
Shuaiyi Huang, Luyu Yang, Bo He, Songyang Zhang, Xuming He, Abhinav Shrivastava(参考訳) 密接な意味的対応を見つけることはコンピュータビジョンの根本的な問題であり、背景の混乱、極端なクラス内変異、そして厳格な根拠の欠如のために複雑な場面では依然として困難である。 本稿では,スパースキーポイントアノテーションからの監視信号の強化により,意味的対応におけるラベルの空間性の問題に対処することを目的とする。 そこで我々はまず,高密度な擬似ラベルを生成するための教師学習パラダイムを提案し,その上で,擬似ラベルを識別するための2つの新しい戦略を開発した。 特に、スパースアノテーションの周囲の空間的先行値を用いて、ノイズの多い擬似ラベルを抑える。 また,ラベル表示のための損失駆動動的ラベル選択戦略も導入する。 我々は,1つのオフライン教師設定と相互オンライン教師設定という,2種類の学習戦略でパラダイムをインスタンス化する。 提案手法はセマンティック対応のための3つの挑戦的ベンチマークにおいて顕著な改善を実現し,新しい最先端技術を確立する。 プロジェクトページ:https://shuaiyihuang.github.io/publications/SCorrSAN

Finding dense semantic correspondence is a fundamental problem in computer vision, which remains challenging in complex scenes due to background clutter, extreme intra-class variation, and a severe lack of ground truth. In this paper, we aim to address the challenge of label sparsity in semantic correspondence by enriching supervision signals from sparse keypoint annotations. To this end, we first propose a teacher-student learning paradigm for generating dense pseudo-labels and then develop two novel strategies for denoising pseudo-labels. In particular, we use spatial priors around the sparse annotations to suppress the noisy pseudo-labels. In addition, we introduce a loss-driven dynamic label selection strategy for label denoising. We instantiate our paradigm with two variants of learning strategies: a single offline teacher setting, and mutual online teachers setting. Our approach achieves notable improvements on three challenging benchmarks for semantic correspondence and establishes the new state-of-the-art. Project page: https://shuaiyihuang.github.io/publications/SCorrSAN.
翻訳日:2022-08-18 10:31:56 公開日:2022-08-17
# 局所被曝光強調に向けて

Towards Local Underexposed Photo Enhancement ( http://arxiv.org/abs/2208.07711v2 )

ライセンス: Link先を確認
Yizhan Huang and Xiaogang Xu(参考訳) 深層生成モデルが高度にリアルな画像を生成する能力に触発された最近の研究は、未公開の画像を世界的に拡張する進歩を遂げている。 しかし、局所的な画像強調手法は検討されていないが、実世界のシナリオ、例えば局所的な過露出の修正には必須である。 本研究では,入力マスクでどの領域を啓蒙するかをユーザが制御できる,未公開画像強調のための新しいタスク設定を定義する。 マスクが示すように、画像は、マスク領域a、遷移領域b、未マスク領域cの3つの領域に分けられる。その結果、所望の照明により、領域aを啓蒙すべきであり、明細領域(領域a)から変化領域(領域c)への円滑な遷移(領域b)がある。 そこで本稿では,マスクを付加チャネル(MConcat),マスクベースのノームライゼーション(MNorm)の2つの手法を提案する。 MConcatは単に入力画像にマスクチャネルを付加するだけであるが、MNormは空間変化画素を動的に拡張することができ、入力マスクが示す要件に整合性があることを保証する。 さらに、MConcatはプレイ・アンド・プラグモジュールとして機能し、局所的な拡張を実現するために、画像のグローバルな拡張を行う既存のネットワークに組み込むことができる。 また、ネットワーク全体のトレーニングは、様々なモデル構造に統一されたエリアa、エリアb、エリアcの3種類の損失関数で行うことができる。 我々は,低光度拡張のためのパラメトリック手法,畳み込みニュートラルネットワークモデルおよびトランスベースモデルを用いて,公開データセットを広範囲に実験し,提案手法の有効性を実証する。

Inspired by the ability of deep generative models to generate highly realistic images, much recent work has made progress in enhancing underexposed images globally. However, the local image enhancement approach has not been explored, although they are requisite in the real-world scenario, e.g., fixing local underexposure. In this work, we define a new task setting for underexposed image enhancement where users are able to control which region to be enlightened with an input mask. As indicated by the mask, an image can be divided into three areas, including Masked Area A, Transition Area B, and Unmasked Area C. As a result, Area A should be enlightened to the desired lighting, and there shall be a smooth transition (Area B) from the enlightened area (Area A) to the unchanged region (Area C). To finish this task, we propose two methods: Concatenate the mask as additional channels (MConcat), Mask-based Normlization (MNorm). While MConcat simply append the mask channels to the input images, MNorm can dynamically enhance the spatial-varying pixels, guaranteeing the enhanced images are consistent with the requirement indicated by the input mask. Moreover, MConcat serves as a play-and-plug module, and can be incorporated with existing networks, which globally enhance images, to achieve the local enhancement. And the overall network can be trained with three kinds of loss functions in Area A, Area B, and Area C, which are unified for various model structures. We perform extensive experiments on public datasets with various parametric approaches for low-light enhancement, %the Convolutional-Neutral-Network-based model and Transformer-based model, demonstrating the effectiveness of our methods.
翻訳日:2022-08-18 10:31:38 公開日:2022-08-17
# ハイブリッド型深部特徴量に基づく病理画像の変形性画像登録法

A Hybrid Deep Feature-Based Deformable Image Registration Method for Pathological Images ( http://arxiv.org/abs/2208.07655v2 )

ライセンス: Link先を確認
Chulong Zhang, Yuming Jiang, Na Li, Zhicheng Zhang, Md Tauhidul Islam, Jingjing Dai, Lin Liu, Wenfeng He, Wenjian Qin, Jing Xiong, Yaoqin Xie and Xiaokun Liang(参考訳) 病理医は、異なる染色された病理スライスからの情報を組み合わせて正確な診断結果を得る必要がある。 変形可能な画像登録はマルチモーダルな病理スライスを用いるのに必要な技術である。 本稿では,染色された病理試料に対するハイブリッドな特徴量に基づく変形可能な画像登録フレームワークを提案する。 まず,2つの深層学習特徴ネットワークで一致した高密度特徴点を抽出する。 そして,さらに誤一致を減らすために,孤立林統計モデルと局所アフィン補正モデルを組み合わせた異常検出法を提案する。 最後に、補間方法は、上記マッチング点に基づいて病理画像登録用dvfを生成する。 我々は,IEEE ISBI 2019 会議と共同で,非剛性組織画像登録(ANHIR)課題のデータセットについて評価を行った。 従来の手法を17%上回り,平均平均登録目標誤差(rtre)が0.0034に達した。 提案手法は,テストデータセットの評価において最先端の性能を達成し,その1をランク付けする。 提案するハイブリッド型深層特徴ベース登録法は,病理画像登録の信頼性の高い方法となり得る。

Pathologists need to combine information from differently stained pathological slices to obtain accurate diagnostic results. Deformable image registration is a necessary technique for fusing multi-modal pathological slices. This paper proposes a hybrid deep feature-based deformable image registration framework for stained pathological samples. We first extract dense feature points and perform points matching by two deep learning feature networks. Then, to further reduce false matches, an outlier detection method combining the isolation forest statistical model and the local affine correction model is proposed. Finally, the interpolation method generates the DVF for pathology image registration based on the above matching points. We evaluate our method on the dataset of the Non-rigid Histology Image Registration (ANHIR) challenge, which is co-organized with the IEEE ISBI 2019 conference. Our technique outperforms the traditional approaches by 17% with the Average-Average registration target error (rTRE) reaching 0.0034. The proposed method achieved state-of-the-art performance and ranking it 1 in evaluating the test dataset. The proposed hybrid deep feature-based registration method can potentially become a reliable method for pathology image registration.
翻訳日:2022-08-18 10:31:06 公開日:2022-08-17
# Virgo: 宇宙衝撃波のスケーラブルな教師なし分類

Virgo: Scalable Unsupervised Classification of Cosmological Shock Waves ( http://arxiv.org/abs/2208.06859v2 )

ライセンス: Link先を確認
Max Lamparth, Ludwig B\"oss, Ulrich Steinwandel and Klaus Dolag(参考訳) 宇宙衝撃波は宇宙構造の形成を理解するのに不可欠である。 研究のために、科学者は計算に高価な高解像度の3D流体力学シミュレーションを実行した。 シミュレーション結果の解釈は、結果のデータセットが巨大であり、衝撃波面が複雑な形態と複数の衝撃面が交差しているため、分離および分類が難しいため、困難である。 我々は,この未解決な分類問題に対処するために,物理的なモチベーション,スケーラビリティ,確率的堅牢性を組み合わせた新しいパイプラインVirgoを導入する。 この目的のために、カーネルの主成分分析と低ランク行列近似を用いて衝撃粒子のデータセットをノイズ化し、ラベル付きサブセットを作成する。 教師付き分類を行い,確率的変分深核学習により全データの分解能を回復する。 複雑度が異なる3つの最先端データセットについて評価し,良好な結果を得た。 提案されたパイプラインは自動的に動作し、いくつかのハイパーパラメータしか持たず、テスト済みのデータセットすべてでうまく動作します。 当社の成果は大規模応用に期待でき、今後の科学的研究に注目する。

Cosmological shock waves are essential to understanding the formation of cosmological structures. To study them, scientists run computationally expensive high-resolution 3D hydrodynamic simulations. Interpreting the simulation results is challenging because the resulting data sets are enormous, and the shock wave surfaces are hard to separate and classify due to their complex morphologies and multiple shock fronts intersecting. We introduce a novel pipeline, Virgo, combining physical motivation, scalability, and probabilistic robustness to tackle this unsolved unsupervised classification problem. To this end, we employ kernel principal component analysis with low-rank matrix approximations to denoise data sets of shocked particles and create labeled subsets. We perform supervised classification to recover full data resolution with stochastic variational deep kernel learning. We evaluate on three state-of-the-art data sets with varying complexity and achieve good results. The proposed pipeline runs automatically, has only a few hyperparameters, and performs well on all tested data sets. Our results are promising for large-scale applications, and we highlight now enabled future scientific work.
翻訳日:2022-08-18 10:30:50 公開日:2022-08-17