このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220728となっている論文です。

PDF登録状況(公開日: 20220728)

TitleAuthorsAbstract論文公表日・翻訳日
# 逆検出手法で後方攻撃を軽減できるか?

Can We Mitigate Backdoor Attack Using Adversarial Detection Methods? ( http://arxiv.org/abs/2006.14871v2 )

ライセンス: Link先を確認
Kaidi Jin, Tianwei Zhang, Chao Shen, Yufei Chen, Ming Fan, Chenhao Lin, Ting Liu(参考訳) ディープニューラルネットワークは、敵対的な攻撃やバックドア攻撃に対して脆弱であることがよく知られており、入力に対する小さな変更によって、間違った結果を与えるためにモデルを誤解させることができる。 敵攻撃に対する防御は広く研究されているが、バックドア攻撃の緩和に関する調査はまだ初期段階である。 この2つの攻撃に対する防御の間につながりや共通の特徴があるかどうかは不明である。 我々は,敵対的事例とディープニューラルネットワークのバックドア事例の関連性について包括的研究を行い,その疑問に答える: 敵的検出法を用いてバックドアを検出することができるか。 我々の知見は、敵対的な例とバックドアの例の両方が推論プロセス中に異常を持つという観察に基づいており、良性サンプルと非常に区別できる。 その結果,バックドアの事例を検出するために,既存の4つの防御手法を改訂した。 広範囲な評価は,これらの手法が,敵の事例を検出するよりも高い精度で,バックドア攻撃に対する信頼性の高い防御を提供することを示している。 これらの解はまた、モデル感度、アクティベーション空間、特徴空間における逆例、バックドア例、正規サンプルの関係を明らかにする。 これにより、この2つの攻撃の本質的な特徴と防御の機会に対する理解を深めることができます。

Deep Neural Networks are well known to be vulnerable to adversarial attacks and backdoor attacks, where minor modifications on the input are able to mislead the models to give wrong results. Although defenses against adversarial attacks have been widely studied, investigation on mitigating backdoor attacks is still at an early stage. It is unknown whether there are any connections and common characteristics between the defenses against these two attacks. We conduct comprehensive studies on the connections between adversarial examples and backdoor examples of Deep Neural Networks to seek to answer the question: can we detect backdoor using adversarial detection methods. Our insights are based on the observation that both adversarial examples and backdoor examples have anomalies during the inference process, highly distinguishable from benign samples. As a result, we revise four existing adversarial defense methods for detecting backdoor examples. Extensive evaluations indicate that these approaches provide reliable protection against backdoor attacks, with a higher accuracy than detecting adversarial examples. These solutions also reveal the relations of adversarial examples, backdoor examples and normal samples in model sensitivity, activation space and feature space. This is able to enhance our understanding about the inherent features of these two attacks and the defense opportunities.
翻訳日:2022-11-16 21:05:44 公開日:2022-07-28
# パターンマイニングのための最小記述長原理:調査

The Minimum Description Length Principle for Pattern Mining: A Survey ( http://arxiv.org/abs/2007.14009v5 )

ライセンス: Link先を確認
Esther Galbrun(参考訳) これはパターンマイニングに適用される最小記述長(MDL)原理に関するものである。 この記述の長さは最小限に抑えられている。 パターンマイニングはデータ分析の中核的なタスクであり、効率的な列挙の問題を超えて、パターンの選択が大きな課題となっている。 情報理論に基づくモデル選択法であるMDL原理は,コンパクトな高品質なパターン集合を得るためにパターンマイニングに適用されている。 情報理論とコーディングの関連概念の概要と,MDLの背景にある理論と類似の原理について概説した後,様々な種類のデータやパターンをマイニングするためのMDLに基づく手法を概説した。 最後に,これらの手法に関する諸問題について議論を行い,現在活動中のデータ分析問題に注目した。

This is about the Minimum Description Length (MDL) principle applied to pattern mining. The length of this description is kept to the minimum. Mining patterns is a core task in data analysis and, beyond issues of efficient enumeration, the selection of patterns constitutes a major challenge. The MDL principle, a model selection method grounded in information theory, has been applied to pattern mining with the aim to obtain compact high-quality sets of patterns. After giving an outline of relevant concepts from information theory and coding, as well as of work on the theory behind the MDL and similar principles, we review MDL-based methods for mining various types of data and patterns. Finally, we open a discussion on some issues regarding these methods, and highlight currently active related data analysis problems.
翻訳日:2022-11-06 02:54:10 公開日:2022-07-28
# DeltaGAN: サンプル差分画像生成に向けて

DeltaGAN: Towards Diverse Few-shot Image Generation with Sample-Specific Delta ( http://arxiv.org/abs/2009.08753v4 )

ライセンス: Link先を確認
Yan Hong, Li Niu, Jianfu Zhang, Jing Liang, Liqing Zhang(参考訳) 少数ショット画像生成と呼ばれる少数の画像に基づいて新しいカテゴリの新しい画像を生成する学習は、研究の関心が高まりつつある。 いくつかの最先端の作品は印象的な結果をもたらしたが、多様性はまだ限られている。 本研究では,再構成サブネットワークと生成サブネットワークからなるDelta Generative Adversarial Network (DeltaGAN)を提案する。 再構成サブネットワークはカテゴリ内変換(すなわち、同じカテゴリ間の"デルタ")をキャプチャする。 生成サブネットワークは、入力画像に対してサンプル特異的な"デルタ"を生成し、入力画像と組み合わせて、同じカテゴリ内の新しい画像を生成する。 さらに、上記2つのサブネットを連結するように、逆デルタマッチング損失を設計する。 提案手法の有効性を示すために,5つの画像データセットの大規模な実験を行った。

Learning to generate new images for a novel category based on only a few images, named as few-shot image generation, has attracted increasing research interest. Several state-of-the-art works have yielded impressive results, but the diversity is still limited. In this work, we propose a novel Delta Generative Adversarial Network (DeltaGAN), which consists of a reconstruction subnetwork and a generation subnetwork. The reconstruction subnetwork captures intra-category transformation, i.e., "delta", between same-category pairs. The generation subnetwork generates sample-specific "delta" for an input image, which is combined with this input image to generate a new image within the same category. Besides, an adversarial delta matching loss is designed to link the above two subnetworks together. Extensive experiments on five few-shot image datasets demonstrate the effectiveness of our proposed method.
翻訳日:2022-10-17 03:17:18 公開日:2022-07-28
# SDBERT: SparseDistilBERT - 高速で小型のBERTモデル

SDBERT: SparseDistilBERT, a faster and smaller BERT model ( http://arxiv.org/abs/2208.10246v1 )

ライセンス: Link先を確認
Devaraju Vinoda, Pawan Kumar Yadav(参考訳) 本研究では,スパースアテンションと知識蒸留(KD)を組み合わせたSparseDistilBERT (SDBERT)と呼ばれるトランスフォーマーアーキテクチャを提案する。 入力長の2次依存性を線形に抑えるために,注意の分散機構を実装した。 モデルの計算複雑性の低減に加えて,知識蒸留(KD)を用いた。 97%のパフォーマンスを維持しながら、bertモデルのサイズを60%削減できたが、トレーニングには40%の時間しかかからなかった。

In this work we introduce a new transformer architecture called SparseDistilBERT (SDBERT), which is a combination of sparse attention and knowledge distillantion (KD). We implemented sparse attention mechanism to reduce quadratic dependency on input length to linear. In addition to reducing computational complexity of the model, we used knowledge distillation (KD). We were able to reduce the size of BERT model by 60% while retaining 97% performance and it only took 40% of time to train.
翻訳日:2022-08-28 22:35:26 公開日:2022-07-28
# ニューラルネットワークの概念に対する単体テスト

Unit Testing for Concepts in Neural Networks ( http://arxiv.org/abs/2208.10244v1 )

ライセンス: Link先を確認
Charles Lovering and Ellie Pavlick(参考訳) 多くの複雑な問題は、自然に象徴的な概念として理解される。 例えば、"cat"という概念は、"ears" や "whiskers" という概念と非アービタリーな方法で関連しています。 Fodor (1998) は概念の1つの理論を提案し、これは選挙区構造を通して関連する記号表現を強調する。 ニューラルネットワークがそのような理論と一致するかどうかは議論の余地がある。 本稿では,システムの動作がfodorの基準のいくつかの重要な側面と一致しているかを評価するためのユニットテストを提案する。 単純な視覚的概念学習タスクを用いて、この仕様に対して現代のニューラルアーキテクチャを評価した。 モデルは着地性、モジュラリティ、概念の再利用性テストで成功するが、因果性に関する重要な疑問は依然として開かれている。 これらを解決するには、モデルの内部状態を分析する新しい方法が必要となる。

Many complex problems are naturally understood in terms of symbolic concepts. For example, our concept of "cat" is related to our concepts of "ears" and "whiskers" in a non-arbitrary way. Fodor (1998) proposes one theory of concepts, which emphasizes symbolic representations related via constituency structures. Whether neural networks are consistent with such a theory is open for debate. We propose unit tests for evaluating whether a system's behavior is consistent with several key aspects of Fodor's criteria. Using a simple visual concept learning task, we evaluate several modern neural architectures against this specification. We find that models succeed on tests of groundedness, modularlity, and reusability of concepts, but that important questions about causality remain open. Resolving these will require new methods for analyzing models' internal states.
翻訳日:2022-08-28 22:27:06 公開日:2022-07-28
# スペクトルグラフウェーブレット理論によるマサチューセッツ州におけるcovid-19の時空間動態の解析

Analysis of the Spatio-temporal Dynamics of COVID-19 in Massachusetts via Spectral Graph Wavelet Theory ( http://arxiv.org/abs/2208.01749v1 )

ライセンス: Link先を確認
Ru Geng, Yixian Gao, Hongkun Zhang, and Jian Zu(参考訳) 新型コロナウイルスの急速な拡大は世界に大きな影響を与えている。 本稿では,2020年12月6日から2021年9月25日まで,マサチューセッツ州の351都市および町を対象に,オープンデータソースを用いた新型コロナウイルスのデータ解釈と可視化を行った。 都市は比較的複雑な交通ネットワークに埋め込まれているため、マサチューセッツの主要都市間でのパンデミック遷移確率を学習するための深層学習手法としてグラフ注意ニューラルネットワークを利用する時空間動的グラフモデルを構築している。 スペクトルグラフウェーブレット変換(SGWT)を用いて、ダイナミックグラフ上のCOVID-19データを処理し、パンデミックの時空間パターンを分析し検出するための効果的なツールを設計することができる。 本研究では,スペクトルグラフウェーブレット係数に基づいて異常都市を効果的に識別する新しいノード分類法を考案する。 パンデミックの感染拡大をモニターし、予防策を講じるために、行政や保健機関を支援することができる。 確認されたケースの進化に時間をかけてフォーカスするほとんどの研究とは異なり、都市間のパンデミック進化の時空間的パターンに焦点を当てる。 データ解析と可視化により,都市レベルでの疫学の発展をよりよく把握し,都市固有の監視に役立てることができる。

The rapid spread of COVID-19 disease has had a significant impact on the world. In this paper, we study COVID-19 data interpretation and visualization using open-data sources for 351 cities and towns in Massachusetts from December 6, 2020 to September 25, 2021. Because cities are embedded in rather complex transportation networks, we construct the spatio-temporal dynamic graph model, in which the graph attention neural network is utilized as a deep learning method to learn the pandemic transition probability among major cities in Massachusetts. Using the spectral graph wavelet transform (SGWT), we process the COVID-19 data on the dynamic graph, which enables us to design effective tools to analyze and detect spatio-temporal patterns in the pandemic spreading. We design a new node classification method, which effectively identifies the anomaly cities based on spectral graph wavelet coefficients. It can assist administrations or public health organizations in monitoring the spread of the pandemic and developing preventive measures. Unlike most work focusing on the evolution of confirmed cases over time, we focus on the spatio-temporal patterns of pandemic evolution among cities. Through the data analysis and visualization, a better understanding of the epidemiological development at the city level is obtained and can be helpful with city-specific surveillance.
翻訳日:2022-08-07 14:29:02 公開日:2022-07-28
# スタイリゼーション3dキャラクタのためのスケルトンフリーポーズ転送

Skeleton-free Pose Transfer for Stylized 3D Characters ( http://arxiv.org/abs/2208.00790v1 )

ライセンス: Link先を確認
Zhouyingcheng Liao, Jimei Yang, Jun Saito, Gerard Pons-Moll, Yang Zhou(参考訳) 骨格リグを使わずにスタイリングされた3D文字間でポーズを自動転送する最初の方法を提案する。 固定あるいはトポロジに等価な骨格テンプレート上でのポーズ変換を学習する以前の試みとは対照的に,本手法では,多様な形状,トポロジ,メッシュ接続性を持つ骨格のない文字を扱う新しいシナリオに焦点を当てている。 本手法の重要な考え方は,文字を統一的な調音モデルで表現することで,ポーズを対応部を通して伝達することである。 そこで本研究では,文字スキンの重みと変形変形を共同で予測し,対象文字を表現し,所望のポーズにマッチさせる新しいポーズ伝達ネットワークを提案する。 本手法は,既存のすべての文字データを対/非ペアポーズとスタイリッシュな形状で吸収する半教師あり方式で学習する。 目に見えないスタイルの文字や不定形オブジェクトをうまく一般化する。 本研究は,本手法の有効性を実証し,広範な実験を行った。

We present the first method that automatically transfers poses between stylized 3D characters without skeletal rigging. In contrast to previous attempts to learn pose transformations on fixed or topology-equivalent skeleton templates, our method focuses on a novel scenario to handle skeleton-free characters with diverse shapes, topologies, and mesh connectivities. The key idea of our method is to represent the characters in a unified articulation model so that the pose can be transferred through the correspondent parts. To achieve this, we propose a novel pose transfer network that predicts the character skinning weights and deformation transformations jointly to articulate the target character to match the desired pose. Our method is trained in a semi-supervised manner absorbing all existing character data with paired/unpaired poses and stylized shapes. It generalizes well to unseen stylized characters and inanimate objects. We conduct extensive experiments and demonstrate the effectiveness of our method on this novel task.
翻訳日:2022-08-02 14:41:05 公開日:2022-07-28
# hob-cnn:2次元果樹用畳み込みニューラルネットワークによる閉塞枝の幻覚

HOB-CNN: Hallucination of Occluded Branches with a Convolutional Neural Network for 2D Fruit Trees ( http://arxiv.org/abs/2208.00002v1 )

ライセンス: Link先を確認
Zijue Chen, Keenan Granland, Rhys Newbury, Chao Chen(参考訳) オーチャードの自動化は最近、世界的な労働力不足のために研究者の注目を集めている。 プランニング、シンニング、収穫などの果樹園の作業を自動化するには、木構造の詳細な理解が必要である。 しかし,葉や果実からのオクルージョンは,オクルードされた幹や枝の位置を予測するのに困難である。 本研究では,木分岐位置予測のための回帰学習モデルであるHalucination of Occluded Branch Convolutional Neural Network (HOB-CNN)を提案する。 本研究では,垂直方向に沿った枝の水平位置に対する回帰問題として,枝の位置予測を定式化する。 本稿では,2つの最先端のベースラインを持つY字樹の比較実験を行い,この問題に対する共通のアプローチを示す。 実験により, hob-cnnは分岐位置の予測においてベースラインを上回り, 種々の咬合レベルに対するロバスト性を示した。 さらに,HOB-CNNを2種類の異なる2次元木に対して検証し,HOB-CNNは異なる木にまたがる一般化と,異なる閉塞条件下での堅牢性を示した。

Orchard automation has attracted the attention of researchers recently due to the shortage of global labor force. To automate tasks in orchards such as pruning, thinning, and harvesting, a detailed understanding of the tree structure is required. However, occlusions from foliage and fruits can make it challenging to predict the position of occluded trunks and branches. This work proposes a regression-based deep learning model, Hallucination of Occluded Branch Convolutional Neural Network (HOB-CNN), for tree branch position prediction in varying occluded conditions. We formulate tree branch position prediction as a regression problem towards the horizontal locations of the branch along the vertical direction or vice versa. We present comparative experiments on Y-shaped trees with two state-of-the-art baselines, representing common approaches to the problem. Experiments show that HOB-CNN outperform the baselines at predicting branch position and shows robustness against varying levels of occlusion. We further validated HOB-CNN against two different types of 2D trees, and HOB-CNN shows generalization across different trees and robustness under different occluded conditions.
翻訳日:2022-08-02 14:27:36 公開日:2022-07-28
# RangL:強化学習コンペティションプラットフォーム

RangL: A Reinforcement Learning Competition Platform ( http://arxiv.org/abs/2208.00003v1 )

ライセンス: Link先を確認
Viktor Zobernig, Richard A. Saldanha, Jinke He, Erica van der Sar, Jasper van Doorn, Jia-Chen Hua, Lachlan R. Mason, Aleksander Czechowski, Drago Indjic, Tomasz Kosmala, Alessandro Zocca, Sandjai Bhulai, Jorge Montalvo Arvizu, Claude Kl\"ockl, John Moriarty(参考訳) アランチューリング研究所が主催するRangLプロジェクトは、現実世界の動的決定問題に関する競争を支援することで、強化学習のより広範な普及を促進することを目的としている。 この記事では、RangLチームが開発し、UK Net Zero Technology Centreがサポートする2022 Pathways to Net Zero Challengeのためにデプロイした再利用可能なコードリポジトリについて説明する。 このチャレンジの勝利の解決策は、2050年までに英国のエネルギー移行政策をゼロ炭素排出量に最適化することである。 RangLリポジトリには、OpenAI Gym強化学習環境と、オープンソースのEvalAIプラットフォームのリモートインスタンスへの提出と評価の両方をサポートするコード、そして、すべての勝利した学習エージェント戦略が含まれている。 このリポジトリは、将来の課題に対して再利用可能な構造を提供するRangLの機能の例である。

The RangL project hosted by The Alan Turing Institute aims to encourage the wider uptake of reinforcement learning by supporting competitions relating to real-world dynamic decision problems. This article describes the reusable code repository developed by the RangL team and deployed for the 2022 Pathways to Net Zero Challenge, supported by the UK Net Zero Technology Centre. The winning solutions to this particular Challenge seek to optimize the UK's energy transition policy to net zero carbon emissions by 2050. The RangL repository includes an OpenAI Gym reinforcement learning environment and code that supports both submission to, and evaluation in, a remote instance of the open source EvalAI platform as well as all winning learning agent strategies. The repository is an illustrative example of RangL's capability to provide a reusable structure for future challenges.
翻訳日:2022-08-02 13:30:16 公開日:2022-07-28
# 長距離アイリスとグラフシアムニューラルネットワークを用いた検証システム

Verification system based on long-range iris and Graph Siamese Neural Networks ( http://arxiv.org/abs/2208.00785v1 )

ライセンス: Link先を確認
Francesco Zola, Jose Alvaro Fernandez-Carrasco, Jan Lukas Bruse, Mikel Galar, Zeno Geradts(参考訳) 生体認証システムは、物理的および行動的特徴を高精度に分析できるため、ユーザ認証や検証などのタスクにおいて有効なソリューションである。 しかし、特に虹彩認識のように物理的バイオメトリックスを使用する場合、関連する結果を得るためには網膜スキャナー、センサー、HDカメラなどの特定のハードウェアが必要である。 同時に、高分解能な情報を抽出するために、ユーザーはカメラに非常に近付く必要がある。 そこで本研究では,長距離(LR)距離画像を用いて虹彩認証システムを実装する手法を提案する。 具体的には、LRアイリス画像をグラフに変換し、グラフシームスニューラルネットワーク(GSNN)を用いて、2つのグラフが同一人物であるかどうかを予測する新しい手法を提案する。 本研究では,この手法を説明するだけでなく,これらの画像のスペクトル成分がグラフ抽出と最終的な分類作業にどのように役立つかを評価する。 結果は、このアプローチの適合性を実証し、バイオメトリックシステムにおけるグラフアプリケーションの検討をコミュニティに促している。

Biometric systems represent valid solutions in tasks like user authentication and verification, since they are able to analyze physical and behavioural features with high precision. However, especially when physical biometrics are used, as is the case of iris recognition, they require specific hardware such as retina scanners, sensors, or HD cameras to achieve relevant results. At the same time, they require the users to be very close to the camera to extract high-resolution information. For this reason, in this work, we propose a novel approach that uses long-range (LR) distance images for implementing an iris verification system. More specifically, we present a novel methodology for converting LR iris images into graphs and then use Graph Siamese Neural Networks (GSNN) to predict whether two graphs belong to the same person. In this study, we not only describe this methodology but also evaluate how the spectral components of these images can be used for improving the graph extraction and the final classification task. Results demonstrate the suitability of this approach, encouraging the community to explore graph application in biometric systems.
翻訳日:2022-08-02 13:11:33 公開日:2022-07-28
# 知識グラフに基づくインダクティブリンク予測のためのサブグラフ近傍関係 Infomax

Subgraph Neighboring Relations Infomax for Inductive Link Prediction on Knowledge Graphs ( http://arxiv.org/abs/2208.00850v1 )

ライセンス: Link先を確認
Xiaohan Xu, Peng Zhang, Yongquan He, Chengpeng Chao, Chaoyang Yan(参考訳) 知識グラフの帰納的リンク予測は、訓練段階に示されないエンティティ間の欠落リンクを予測することを目的としている。 以前の作品の多くはエンティティのエンティティ固有の埋め込みを学習しており、見えないエンティティは処理できない。 近年のいくつかの手法では、囲い込み部分グラフを用いて誘導能力を得る。 しかし、これらすべての研究は、完全隣接関係のない部分グラフの囲い部分のみを考慮し、部分隣接関係は無視され、疎疎部分グラフは扱いにくいという問題に繋がる。 そこで我々は,ノード特徴の近傍関係とスパース部分グラフの隣接関係経路という2つの側面から,完全隣接関係を十分に活用するSubgraph Neboring Relations Infomax,SNRIを提案する。 さらに,隣り合う関係をグローバルにモデル化するために,知識グラフに対する相互情報(mi)の最大化を革新的に適用する。 実験により、SNRIは、誘導的リンク予測タスクにおいて既存の最先端手法よりも優れた性能を示し、ノードの特徴とスパース部分グラフの推論をグローバルに評価する方法として、完全隣接関係探索の有効性を検証する。

Inductive link prediction for knowledge graph aims at predicting missing links between unseen entities, those not shown in training stage. Most previous works learn entity-specific embeddings of entities, which cannot handle unseen entities. Recent several methods utilize enclosing subgraph to obtain inductive ability. However, all these works only consider the enclosing part of subgraph without complete neighboring relations, which leads to the issue that partial neighboring relations are neglected, and sparse subgraphs are hard to be handled. To address that, we propose Subgraph Neighboring Relations Infomax, SNRI, which sufficiently exploits complete neighboring relations from two aspects: neighboring relational feature for node feature and neighboring relational path for sparse subgraph. To further model neighboring relations in a global way, we innovatively apply mutual information (MI) maximization for knowledge graph. Experiments show that SNRI outperforms existing state-of-art methods by a large margin on inductive link prediction task, and verify the effectiveness of exploring complete neighboring relations in a global way to characterize node features and reason on sparse subgraphs.
翻訳日:2022-08-02 13:06:08 公開日:2022-07-28
# 光フロー特徴を利用したビデオディープフェイク検出のためのハイブリッドCNN-LSTMモデル

A Hybrid CNN-LSTM model for Video Deepfake Detection by Leveraging Optical Flow Features ( http://arxiv.org/abs/2208.00788v1 )

ライセンス: Link先を確認
Pallabi Saikia, Dhwani Dholaria, Priyanka Yadav, Vaidehi Patel, Mohendra Roy(参考訳) ディープフェイク(Deepfakes)は、デジタルメディアの合成で、超リアルなフェイクビデオを作り、観客を騙す。 GAN(Generative Adversarial Networks)のような深層生成アルゴリズムは、そのようなタスクを達成するために広く使われている。 このアプローチは、従来の検出手法では区別が難しい疑似現実的コンテンツを合成する。 ほとんどの場合、畳み込みニューラルネットワーク(CNN)に基づく識別器が、このような合成メディアの検出に使われている。 しかし、主に個々のビデオフレームの空間的属性に重点を置いており、フレーム間の関係から時間的情報を学ばない。 本稿では,光フローに基づく特徴抽出手法を用いて時間的特徴を抽出し,その特徴を分類のためのハイブリッドモデルに与えた。 このハイブリッドモデルは、CNNとリカレントニューラルネットワーク(RNN)アーキテクチャの組み合わせに基づいている。 このハイブリッドモデルは、DFDC、FF++、Celeb-DFといったオープンソースのデータセットに効果的なパフォーマンスを提供する。 提案手法は,DFDC,FF++,Celeb-DFにおいて66.26%,91.21%,79.49%の精度を示し,試料100点あたりの試料サイズ(フレーム)は極めて小さくなった。 これにより、既存のモダリティと比較して偽コンテンツが早期に検出される。

Deepfakes are the synthesized digital media in order to create ultra-realistic fake videos to trick the spectator. Deep generative algorithms, such as, Generative Adversarial Networks(GAN) are widely used to accomplish such tasks. This approach synthesizes pseudo-realistic contents that are very difficult to distinguish by traditional detection methods. In most cases, Convolutional Neural Network(CNN) based discriminators are being used for detecting such synthesized media. However, it emphasise primarily on the spatial attributes of individual video frames, thereby fail to learn the temporal information from their inter-frame relations. In this paper, we leveraged an optical flow based feature extraction approach to extract the temporal features, which are then fed to a hybrid model for classification. This hybrid model is based on the combination of CNN and recurrent neural network (RNN) architectures. The hybrid model provides effective performance on open source data-sets such as, DFDC, FF++ and Celeb-DF. This proposed method shows an accuracy of 66.26%, 91.21% and 79.49% in DFDC, FF++, and Celeb-DF respectively with a very reduced No of sample size of approx 100 samples(frames). This promises early detection of fake contents compared to existing modalities.
翻訳日:2022-08-02 13:01:11 公開日:2022-07-28
# 回転不変核を用いた自己教師付き学習

Self-supervised learning with rotation-invariant kernels ( http://arxiv.org/abs/2208.00789v1 )

ライセンス: Link先を確認
L\'eon Zheng (DANTE), Gilles Puy, Elisa Riccietti (DANTE), Patrick P\'erez, R\'emi Gribonval (DANTE)(参考訳) 自己教師型で画像表現を学習するための主要なパラダイムは、デジェネレーションされた解を学ぶために埋め込み分布を規則化しながら、予め定義された画像変換(クロップ、ぼかし、色ジッタリングなど)に不変なモデルを学ぶことである。 我々の最初の貢献は、超球面上の一様分布に近い埋め込み分布を促進する汎用正規化損失を設計するための一般的なカーネルフレームワークを提案することである。 我々のフレームワークは、ハイパースフィア上で定義された回転不変カーネル(ドット生成カーネル)を使用する。 第2の貢献は,このフレキシブルなカーネルアプローチが,一様性に基づく情報最大化手法を含む,既存の自己教師あり学習手法を包含していることを示すことである。 最後に, 実験により, 回転不変カーネルを用いて, 最先端の手法と比較して, 競合的な結果が得られることを示すとともに, 計算複雑性を低減するために, 提案手法がカーネルトリックの恩恵を受ける実例を示す。

A major paradigm for learning image representations in a self-supervised manner is to learn a model that is invariant to some predefined image transformations (cropping, blurring, color jittering, etc.), while regularizing the embedding distribution to avoid learning a degenerate solution. Our first contribution is to propose a general kernel framework to design a generic regularization loss that promotes the embedding distribution to be close to the uniform distribution on the hypersphere, with respect to the maximum mean discrepancy pseudometric. Our framework uses rotation-invariant kernels defined on the hypersphere, also known as dot-product kernels. Our second contribution is to show that this flexible kernel approach encompasses several existing self-supervised learning methods, including uniformity-based and information-maximization methods. Finally, by exploring empirically several kernel choices, our experiments demonstrate that using a truncated rotation-invariant kernel provides competitive results compared to state-of-the-art methods, and we show practical situations where our method benefits from the kernel trick to reduce computational complexity.
翻訳日:2022-08-02 13:00:49 公開日:2022-07-28
# 状態の平衡トラニケーションと勾配共分散による非線形系のモデル削減

Model Reduction for Nonlinear Systems by Balanced Truncation of State and Gradient Covariance ( http://arxiv.org/abs/2207.14387v1 )

ライセンス: Link先を確認
Samuel E. Otto, Alberto Padovan, Clarence W. Rowley(参考訳) データ駆動の減階モデルでは、例えば適切な直交分解、カーネル主成分分析、オートエンコーダによって、そのような座標がしばしば切り離されるため、低分散の座標に沿って感度の高い高次元非線形系の正確な予測ができないことが多い。 このようなシステムは、非正規性が乱れの成長に重要な役割を果たすせん断支配流体で頻繁に発生する。 これらの問題に対処するために,我々は,モデル還元のための低次元座標系を見つけるために,活性部分空間のアイデアを用いて,系の感度と軌道に沿った状態の分散のバランスをとる。 共分散バランス低減法として随伴スナップショット(cobras)と呼ばれる手法は,システムグラミアンを置換し,同じ鍵変換則に従う状態および随伴に基づく勾配共分散行列とのバランス切断法と同一である。 ここで、抽出された座標は、ペトロフ・ガレルキン還元次モデルを構築するのに使用できる斜射影に関連付けられる。 バランスのとれた適切な直交分解に類似した効率的なスナップショットベースの計算手法を提供する。 これはまた、状態と勾配サンプルの内側積のみに依存する還元座標を計算でき、内側積をカーネル関数に置き換えることでリッチな非線形座標を見つけることができるという観測結果をもたらす。 これらの座標では、回帰を用いて低次モデルを学習することができる。 これらの手法を実証し、簡単な3次元システムと10^5$状態変数を持つ軸対称噴流シミュレーションについて、他の様々な手法と比較する。

Data-driven reduced-order models often fail to make accurate forecasts of high-dimensional nonlinear systems that are sensitive along coordinates with low-variance because such coordinates are often truncated, e.g., by proper orthogonal decomposition, kernel principal component analysis, and autoencoders. Such systems are encountered frequently in shear-dominated fluid flows where non-normality plays a significant role in the growth of disturbances. In order to address these issues, we employ ideas from active subspaces to find low-dimensional systems of coordinates for model reduction that balance adjoint-based information about the system's sensitivity with the variance of states along trajectories. The resulting method, which we refer to as covariance balancing reduction using adjoint snapshots (CoBRAS), is identical to balanced truncation with state and adjoint-based gradient covariance matrices replacing the system Gramians and obeying the same key transformation laws. Here, the extracted coordinates are associated with an oblique projection that can be used to construct Petrov-Galerkin reduced-order models. We provide an efficient snapshot-based computational method analogous to balanced proper orthogonal decomposition. This also leads to the observation that the reduced coordinates can be computed relying on inner products of state and gradient samples alone, allowing us to find rich nonlinear coordinates by replacing the inner product with a kernel function. In these coordinates, reduced-order models can be learned using regression. We demonstrate these techniques and compare to a variety of other methods on a simple, yet challenging three-dimensional system and an axisymmetric jet flow simulation with $10^5$ state variables.
翻訳日:2022-08-01 13:33:55 公開日:2022-07-28
# 異種性に基づく階層クラスタリングのための大域的目的関数のクラスの拡張

Expanding the class of global objective functions for dissimilarity-based hierarchical clustering ( http://arxiv.org/abs/2207.14375v1 )

ライセンス: Link先を確認
Sebastien Roch(参考訳) 異種性に基づく階層的クラスタリングに関する最近の研究は、この古典的問題に対するグローバル客観的関数の導入につながった。 平均リンケージのようないくつかの標準的アプローチといくつかの新しいヒューリスティックは近似の保証をもたらすことが示されている。 本稿では,先行研究における望ましい性質を満足する目的関数の広範な新しいクラスを提案する。 多くの一般的な凝集的および分割的クラスタリング手法は、系統学の関連する概念に触発された、これらの目的のための欲深いアルゴリズムであることが示されている。

Recent work on dissimilarity-based hierarchical clustering has led to the introduction of global objective functions for this classical problem. Several standard approaches, such as average linkage, as well as some new heuristics have been shown to provide approximation guarantees. Here we introduce a broad new class of objective functions which satisfy desirable properties studied in prior work. Many common agglomerative and divisive clustering methods are shown to be greedy algorithms for these objectives, which are inspired by related concepts in phylogenetics.
翻訳日:2022-08-01 13:32:51 公開日:2022-07-28
# シンメトリーとアニーリングを併用した繰り返しニューラルネットワーク波動関数の精度向上

Supplementing Recurrent Neural Network Wave Functions with Symmetry and Annealing to Improve Accuracy ( http://arxiv.org/abs/2207.14314v1 )

ライセンス: Link先を確認
Mohamed Hibat-Allah, Roger G. Melko, Juan Carrasquilla(参考訳) リカレントニューラルネットワーク(Recurrent Neural Network, RNN)は、人工知能のパラダイムから生まれたニューラルネットワークの一種で、自然言語処理の分野で多くの興味深い進歩を実現している。 興味深いことに、これらのアーキテクチャは量子システムの基底状態の近似に強力なアンサツであることが示されている。 本稿では,[Phys. Rev. Research 2, 023358 (2020)]の結果の上に構築し, より強力なRNN波動関数アンサッツを2次元で構築する。 2次元(2次元)ハイゼンベルク模型の平方格子上および三角格子上における基底状態エネルギーの正確な推定には対称性とアニーリングを用いる。 本手法は, 三角格子上のシステムサイズが14 \times 14$よりも大きい場合, 密度行列再正規化群(DMRG)よりも優れていることを示す。

Recurrent neural networks (RNNs) are a class of neural networks that have emerged from the paradigm of artificial intelligence and has enabled lots of interesting advances in the field of natural language processing. Interestingly, these architectures were shown to be powerful ansatze to approximate the ground state of quantum systems. Here, we build over the results of [Phys. Rev. Research 2, 023358 (2020)] and construct a more powerful RNN wave function ansatz in two dimensions. We use symmetry and annealing to obtain accurate estimates of ground state energies of the two-dimensional (2D) Heisenberg model, on the square lattice and on the triangular lattice. We show that our method is superior to Density Matrix Renormalisation Group (DMRG) for system sizes larger than or equal to $14 \times 14$ on the triangular lattice.
翻訳日:2022-08-01 13:32:01 公開日:2022-07-28
# 量子データセンター:理論と応用

Quantum Data Center: Theories and Applications ( http://arxiv.org/abs/2207.14336v1 )

ライセンス: Link先を確認
Junyu Liu, Connor T. Hann, Liang Jiang(参考訳) 本稿では,量子ランダムアクセスメモリ(QRAM)と量子ネットワークを組み合わせたアーキテクチャである量子データセンター(QDC)を提案する。 qdcの正確な定義を与え、その実現可能性と拡張について論じる。 本稿では,QDCの量子計算,量子通信,量子センシングへの応用について論じる。QDCは$T$-gateリソース,QDCはマルチパーティのプライベート量子通信,QDCはデータ圧縮による分散センシングに重点を置いている。 我々は、QDCが将来のデータセンターとして効率的でプライベートで高速なサービスを提供することを示す。

In this paper, we propose the Quantum Data Center (QDC), an architecture combining Quantum Random Access Memory (QRAM) and quantum networks. We give a precise definition of QDC, and discuss its possible realizations and extensions. We discuss applications of QDC in quantum computation, quantum communication, and quantum sensing, with a primary focus on QDC for $T$-gate resources, QDC for multi-party private quantum communication, and QDC for distributed sensing through data compression. We show that QDC will provide efficient, private, and fast services as a future version of data centers.
翻訳日:2022-08-01 13:31:45 公開日:2022-07-28
# 複素予測の位相構造

Topological structure of complex predictions ( http://arxiv.org/abs/2207.14358v1 )

ライセンス: Link先を確認
Meng Liu, Tamal K. Dey, David F. Gleich(参考訳) ディープラーニングのような複雑な予測モデルは、機械学習、ニューラルネットワーク、あるいはaiモデルを一連のトレーニングデータに適合させた結果である。 これらは現在では科学における標準的な道具である。 現在の世代のモデルにおける重要な課題は、高度にパラメータ化されており、予測戦略の説明と解釈が難しいことである。 我々は、トポロジカルデータ分析を用いて、これらの複雑な予測モデルをトポロジカルビューを表す絵に変換する。 結果は、検査を可能にする予測のマップである。 この手法は、異なるドメインにまたがる大きなデータセットまでスケールアップし、トレーニングデータのラベルエラーの検出、画像分類の一般化の理解、brca1遺伝子の病原性変異の予測の検査を可能にする。

Complex prediction models such as deep learning are the output from fitting machine learning, neural networks, or AI models to a set of training data. These are now standard tools in science. A key challenge with the current generation of models is that they are highly parameterized, which makes describing and interpreting the prediction strategies difficult. We use topological data analysis to transform these complex prediction models into pictures representing a topological view. The result is a map of the predictions that enables inspection. The methods scale up to large datasets across different domains and enable us to detect labeling errors in training data, understand generalization in image classification, and inspect predictions of likely pathogenic mutations in the BRCA1 gene.
翻訳日:2022-08-01 13:31:36 公開日:2022-07-28
# 部分微分演算子と動的流れの半教師付き学習

Semi-supervised Learning of Partial Differential Operators and Dynamical Flows ( http://arxiv.org/abs/2207.14366v1 )

ライセンス: Link先を確認
Michael Rotman, Amit Dekel, Ran Ilan Ber, Lior Wolf, Yaron Oz(参考訳) 力学系の進化は一般に非線形偏微分方程式(PDE)によって制御され、その解はシミュレーションフレームワークにおいて膨大な計算資源を必要とする。 本研究では,超ネットワーク解法とフーリエニューラル演算子アーキテクチャを組み合わせた新しい手法を提案する。 我々の方法は時間と空間を別々に扱う。 その結果、偏微分作用素の一般組成特性を利用することで、連続時間ステップにおける初期条件の伝播に成功した。 以前の作業の後、特定の時点に監督が提供される。 1次元,2次元,3次元の非線形流体流を含む様々な時間発展pdesについて実験を行った。 その結果,本手法は,監視点の学習精度が向上し,任意の中間時間に対して補間や解の補間が可能となった。

The evolution of dynamical systems is generically governed by nonlinear partial differential equations (PDEs), whose solution, in a simulation framework, requires vast amounts of computational resources. In this work, we present a novel method that combines a hyper-network solver with a Fourier Neural Operator architecture. Our method treats time and space separately. As a result, it successfully propagates initial conditions in continuous time steps by employing the general composition properties of the partial differential operators. Following previous work, supervision is provided at a specific time point. We test our method on various time evolution PDEs, including nonlinear fluid flows in one, two, and three spatial dimensions. The results show that the new method improves the learning accuracy at the time point of supervision point, and is able to interpolate and the solutions to any intermediate time.
翻訳日:2022-08-01 13:31:25 公開日:2022-07-28
# 公共アートキュレーションとインスタレーションの公平化のためのレコメンダシステム

A Recommender System for Equitable Public Art Curation and Installation ( http://arxiv.org/abs/2207.14367v1 )

ライセンス: Link先を確認
Anna Haensch, Abiy Tasissa, Dina Deitsch(参考訳) 公共空間における芸術の配置は、誰が持ち物を感じているかに大きな影響を与える可能性がある。 都市では、公共芸術は、その利益と文化が好まれている。 本稿では,包括的空間をサポートする方法でパブリックアートを選択するためのキュレーターツールを構築するために,局所制約を伴うグラフマッチング手法を提案する。 我々は、Schellingの分離モデルに基づくコスト行列を開発する。 コスト行列を入力として、投射勾配降下により最適化問題を解き、ソフトな代入行列を得る。 正規化条件を議論し、キュラリアル制約を設定する。 私たちの最適化プログラムでは,最小表現と露出基準を満たして,「グループ内」の選好を優先しない方法で,公共空間や壁へアートワークを割り当てる。 既存の文献を参考にして,アルゴリズム出力の公平性指標を開発した。 タフツ大学をテストベッドとして利用し、我々のアプローチの有効性を評価し、カリキュラムと株式の両方の観点から潜在的な落とし穴について論じる。

The placement of art in public spaces can have a significant impact on who feels a sense of belonging. In cities, public art communicates whose interests and culture are being favored. In this paper, we propose a graph matching approach with local constraints to build a curatorial tool for selecting public art in a way that supports inclusive spaces. We develop a cost matrix by drawing on Schelling's model of segregation. Using the cost matrix as an input, the optimization problem is solved via projected gradient descent to obtain a soft assignment matrix. We discuss regularization terms to set curatorial constraints. Our optimization program allocates artwork to public spaces and walls in a way that de-prioritizes "in-group" preferences, by satisfying minimum representation and exposure criteria. We draw on existing literature to develop a fairness metric for our algorithmic output. Using Tufts University as a testbed, we assess the effectiveness of our approach and discuss its potential pitfalls from both a curatorial and equity standpoint.
翻訳日:2022-08-01 13:26:53 公開日:2022-07-28
# 合成データVaultにおける逐次モデル

Sequential Models in the Synthetic Data Vault ( http://arxiv.org/abs/2207.14406v1 )

ライセンス: Link先を確認
Kevin Zhang, Neha Patki, Kalyan Veeramachaneni(参考訳) 本研究の目的は,Synthetic Data vault内に合成シーケンシャルデータを生成するシステムを記述することである。 そこで本研究では,多系列実世界のデータ生成モデルを構築するエンドツーエンドフレームワークであるSDVのSequentialモデルを提案する。 これには、ニューラルネットワークベースの新しい機械学習モデル、条件付き確率的自己回帰(CPAR)モデルが含まれる。 システム全体とモデルについては、オープンソースのSynthetic Data Vault (SDV) ライブラリ {https://github.com/sdv-dev/SDV} と、さまざまな合成データを必要とするさまざまなモデルで利用可能である。 シークエンシャルSDVを構築した後、合成データを生成し、その品質をCTGANと呼ばれる既存の非シークエンシャルな生成逆ネットワークモデルと比較した。 実データと比較するため,Multi-Sequence Aggregate similarity (MSAS)と呼ばれる新しい指標を考案した。 我々は、連続SDVモデルは、合成データ品質のトレードオフを伴わずに、非逐次モデルよりも高いレベルのパターンを学習する。

The goal of this paper is to describe a system for generating synthetic sequential data within the Synthetic data vault. To achieve this, we present the Sequential model currently in SDV, an end-to-end framework that builds a generative model for multi-sequence, real-world data. This includes a novel neural network-based machine learning model, conditional probabilistic auto-regressive (CPAR) model. The overall system and the model is available in the open source Synthetic Data Vault (SDV) library {https://github.com/sdv-dev/SDV}, along with a variety of other models for different synthetic data needs. After building the Sequential SDV, we used it to generate synthetic data and compared its quality against an existing, non-sequential generative adversarial network based model called CTGAN. To compare the sequential synthetic data against its real counterpart, we invented a new metric called Multi-Sequence Aggregate Similarity (MSAS). We used it to conclude that our Sequential SDV model learns higher level patterns than non-sequential models without any trade-offs in synthetic data quality.
翻訳日:2022-08-01 13:26:39 公開日:2022-07-28
# Subtype-Former:マルチオミクスデータを用いた癌サブタイプ発見のためのディープラーニングアプローチ

Subtype-Former: a deep learning approach for cancer subtype discovery with multi-omics data ( http://arxiv.org/abs/2207.14639v1 )

ライセンス: Link先を確認
Hai Yang, Yuhang Sheng, Yi Jiang, Xiaoyang Fang, Dongdong Li, Jing Zhang, Zhe Wang(参考訳) モチベーション: がんは異種であり、パーソナライズされた治療への正確なアプローチに影響を与える。 正確なサブタイピングは、がん患者の生存率を改善する可能性がある。 高スループット技術は、がんサブタイプのための複数のオミクスデータを提供する。 しかし,オミクスデータの多量かつ高次元化のため,正確ながんのサブタイプ化はいまだに困難である。 結果:本研究では,MLPとTransformer Blockに基づくディープラーニング手法であるSubtype-Formerを提案し,マルチオミクスデータの低次元表現を抽出した。 K-meansとConsensus Clusteringも正確なサブタイプ結果を達成するために使われる。 tcga 10の癌タイプでsubtype-formerとstate-of-the-art subtyping法を比較した。 その結果,Subtype-Formerは生存率分析に基づいて,5000以上の腫瘍のベンチマークデータセットで良好な性能を発揮することがわかった。 さらに、Subtype-Formerは、分子レベルでの様々な種類のがんの共通性と相違を分析するのに役立つパン・カンサー・サブタイピングの優れた結果も達成した。 最後に, TCGA 10 型癌に対して Subtype-Former を適用した。 標的癌薬の研究や、精密医療の時代にがん治療の進展を促進するために使用できる必須バイオマーカー50種を同定した。

Motivation: Cancer is heterogeneous, affecting the precise approach to personalized treatment. Accurate subtyping can lead to better survival rates for cancer patients. High-throughput technologies provide multiple omics data for cancer subtyping. However, precise cancer subtyping remains challenging due to the large amount and high dimensionality of omics data. Results: This study proposed Subtype-Former, a deep learning method based on MLP and Transformer Block, to extract the low-dimensional representation of the multi-omics data. K-means and Consensus Clustering are also used to achieve accurate subtyping results. We compared Subtype-Former with the other state-of-the-art subtyping methods across the TCGA 10 cancer types. We found that Subtype-Former can perform better on the benchmark datasets of more than 5000 tumors based on the survival analysis. In addition, Subtype-Former also achieved outstanding results in pan-cancer subtyping, which can help analyze the commonalities and differences across various cancer types at the molecular level. Finally, we applied Subtype-Former to the TCGA 10 types of cancers. We identified 50 essential biomarkers, which can be used to study targeted cancer drugs and promote the development of cancer treatments in the era of precision medicine.
翻訳日:2022-08-01 13:25:12 公開日:2022-07-28
# aztec曲線:新しい空間充填曲線の提案

Aztec curve: proposal for a new space-filling curve ( http://arxiv.org/abs/2207.14345v1 )

ライセンス: Link先を確認
Diego Ayala, Daniel Durini, Jose Rangel-Magdaleno(参考訳) 本稿では, 異なる空間充填曲線(sfc)について概説し, 新しい曲線を提案する。 この種の曲線の誕生から1世紀が経ち、その後は計算機科学、特にクラスタリングの性質からデータ保存やインデックス作成において有用であることが判明し、ヒルベルト曲線はフラクタル科の最もよく知られた要素である。 ヒルベルト曲線と類似した特徴を持つアステカ曲線は、その構成に関する文法的記述とともに、本論文で紹介されている。 これはヒルベルト曲線やペアノ曲線では利用できない二次元クラスターを作る可能性をもたらす。 これに加えて、圧縮センシング(Compressed Sensing)のスコープにおける応用事例として、ヒルベルト曲線とアステカ曲線との対比を行い、同様の性能を持ち、アステカ曲線を実行可能なものとして位置づけ、将来のSFCを利用したアプリケーションに対する新たな利用法である。

Different space-filling curves (SFCs) are briefly reviewed in this paper, and a new one is proposed. A century has passed between the inception of this kind of curves, since then they have been found useful in computer science, particularly in data storage and indexing due to their clustering properties, being Hilbert curve the most well-known member of the family of fractals. The proposed Aztec curve, with similar characteristics to the Hilbert's curve, is introduced in this paper, accompanied by a grammatical description for its construction. It yields the possibility of creating bi-dimensional clusters, not available for Hilbert nor Peano curves. Additional to this, a case of application on the scope of Compressed Sensing is implemented, in which the use of Hilbert curve is contrasted with Aztec curve, having a similar performance, and positioning the Aztec curve as viable and a new alternative for future exploitation on applications that make use of SFC's.
翻訳日:2022-08-01 13:24:54 公開日:2022-07-28
# カラー物体の位置と追跡のための低コスト組込み型視覚システム

Low Cost Embedded Vision System For Location And Tracking Of A Color Object ( http://arxiv.org/abs/2207.14396v1 )

ライセンス: Link先を確認
Diego Ayala, Danilo Chavez, Leopoldo Altamirano Robles(参考訳) 本稿では、カラーオブジェクトの検出、位置、追跡のための組込み視覚システムの開発について述べ、32ビットのマイクロプロセッサを1台使用して画像データを取得し、その解釈データに基づいて処理し、動作を実行する。 このシステムは、カラーオブジェクトの検出、位置、追跡に人工視覚を使用するアプリケーションを対象としており、その目的は、サイズ、消費電力、コストという観点で達成することである。

This paper describes the development of an embedded vision system for detection, location, and tracking of a color object; it makes use of a single 32-bit microprocessor to acquire image data, process, and perform actions according to the interpreted data. The system is intended for applications that need to make use of artificial vision for detection, location and tracking of a color object and its objective is to have achieve at reduced terms of size, power consumption, and cost.
翻訳日:2022-08-01 13:12:21 公開日:2022-07-28
# 脳波(EEG)を用いた複合数値ニューラルネットワークのハイブリッド化

A Hybrid Complex-valued Neural Network Framework with Applications to Electroencephalogram (EEG) ( http://arxiv.org/abs/2207.14799v1 )

ライセンス: Link先を確認
Hang Du, Rebecca Pillai Riddell, Xiaogang Wang(参考訳) 本稿では,複素値および実値畳み込みニューラルネットワーク(cnn)と離散フーリエ変換(dft)を統合することで,新しい脳波信号分類フレームワークを提案する。 提案するニューラルネットワークアーキテクチャは、1つの複素値畳み込み層、2つの実値畳み込み層、3つの完全連結層で構成される。 本手法はDFTに含まれる位相情報を効率的に利用することができる。 2つの模擬脳波信号とベンチマークデータセットを用いてアプローチを検証し、広く使われている2つのフレームワークと比較する。 本手法は,既存のベンチマークデータセットの分類法と比較して,使用パラメータ数を大幅に削減し,精度を向上させるとともに,シミュレーション脳波信号の分類性能を大幅に向上させる。

In this article, we present a new EEG signal classification framework by integrating the complex-valued and real-valued Convolutional Neural Network(CNN) with discrete Fourier transform (DFT). The proposed neural network architecture consists of one complex-valued convolutional layer, two real-valued convolutional layers, and three fully connected layers. Our method can efficiently utilize the phase information contained in the DFT. We validate our approach using two simulated EEG signals and a benchmark data set and compare it with two widely used frameworks. Our method drastically reduces the number of parameters used and improves accuracy when compared with the existing methods in classifying benchmark data sets, and significantly improves performance in classifying simulated EEG signals.
翻訳日:2022-08-01 13:07:33 公開日:2022-07-28
# preeclampsia ignoromeの知識駆動機構の強化

Knowledge-Driven Mechanistic Enrichment of the Preeclampsia Ignorome ( http://arxiv.org/abs/2207.14294v1 )

ライセンス: Link先を確認
Tiffany J. Callahan, Adrianne L. Stefanski, Jin-Dong Kim, William A. Baumgartner Jr., Jordan M. Wyrwa, Lawrence E. Hunter(参考訳) 妊娠中毒(preeclampsia)は、母性および胎児の死亡率の主要な原因である。 現在、前頭蓋骨の唯一の決定的な治療は胎盤の出産であり、これは疾患の病原性の中心である。 妊娠中毒に合併した妊娠中のヒト胎盤の転写プロファイリングは、差分発現遺伝子(DEG)を同定するために広く行われている。 しかし、DGを実験的に調査する決定は多くの要因に偏っているため、多くのDGは未調査のままである。 実験的に疾患に関連付けられるが、文学における疾患とは無関係な一連のDECは、イグノロームとして知られている。 Preeclampsiaには、幅広い科学文献、大量のDGデータ、そして1つの決定的な治療がある。 多くの情報源から異なるデータを組み合わせることで、行動のメカニズムを示唆する知識に基づく分析を容易にするツールは、この病気の発見と理解の向上を支援する貴重なリソースとなるかもしれない。 本研究は, 生物医学知識グラフ(KG)を用いて, 新規な老化前分子機構を同定する方法を実証する。 既存のオープンソースバイオメディカルリソースと、利用可能な高スループット転写プロファイリングデータを用いて、現在調査されていない前脳症関連DGの機能を特定し、注釈する。 テキストマイニング法を用いて, PubMedの抽象概念から前立腺症に関連する遺伝子を同定した。 テキスト・マインドおよびメタ分析由来のリストの相対的な補体は、未調査のpreeclampsia-associated degs (n=445)、すなわちpreeclampsia ignoromeと同定された。 関連するdegを調べるためにkgを用いたところ, 臨床に関連し, 生物学的に作用可能な53の新規なメカニック・アソシエーションが認められた。

Preeclampsia is a leading cause of maternal and fetal morbidity and mortality. Currently, the only definitive treatment of preeclampsia is delivery of the placenta, which is central to the pathogenesis of the disease. Transcriptional profiling of human placenta from pregnancies complicated by preeclampsia has been extensively performed to identify differentially expressed genes (DEGs). DEGs are identified using unbiased assays, however, the decisions to investigate DEGs experimentally are biased by many factors, causing many DEGs to remain uninvestigated. A set of DEGs which are associated with a disease experimentally, but which have no known association with the disease in the literature is known as the ignorome. Preeclampsia has an extensive body of scientific literature, a large pool of DEG data, and only one definitive treatment. Tools facilitating knowledge-based analyses, which are capable of combining disparate data from many sources in order to suggest underlying mechanisms of action, may be a valuable resource to support discovery and improve our understanding of this disease. In this work we demonstrate how a biomedical knowledge graph (KG) can be used to identify novel preeclampsia molecular mechanisms. Existing open source biomedical resources and publicly available high-throughput transcriptional profiling data were used to identify and annotate the function of currently uninvestigated preeclampsia-associated DEGs. Experimentally investigated genes associated with preeclampsia were identified from PubMed abstracts using text-mining methodologies. The relative complement of the text-mined- and meta-analysis-derived lists were identified as the uninvestigated preeclampsia-associated DEGs (n=445), i.e., the preeclampsia ignorome. Using the KG to investigate relevant DEGs revealed 53 novel clinically relevant and biologically actionable mechanistic associations.
翻訳日:2022-08-01 13:07:19 公開日:2022-07-28
# レコメンダシステムのための自己教師付きハイパーグラフトランスフォーマ

Self-Supervised Hypergraph Transformer for Recommender Systems ( http://arxiv.org/abs/2207.14338v1 )

ライセンス: Link先を確認
Lianghao Xia and Chao Huang and Chuxu Zhang(参考訳) グラフニューラルネットワーク(GNN)は、ユーザ-イテム相互作用グラフのモデリングによる協調フィルタリング(CF)のための有望なソリューションとして示されている。 既存のGNNベースのレコメンデータシステムの鍵となる考え方は、エンコードされた埋め込みを書き換えるために、ユーザーとイテムのインタラクションエッジに沿ってメッセージパッシングを再帰的に実行することである。 しかし、その効果にもかかわらず、現在のレコメンデーションモデルのほとんどは、学習された表現が正確なユーザの好みを捉えることができるように、十分に高品質なトレーニングデータに依存している。 多くの実用的なレコメンデーションシナリオにおけるユーザー行動データは、しばしば騒がしく、歪んだ分布を示し、これはgnnベースのモデルで準最適表現性能をもたらす可能性がある。 本稿では,グローバルな協調関係を明示的な方法で探求することにより,ユーザ表現を増強する新しい自己教師付きハイパーグラフトランスフォーマフレームワーク(sht)を提案する。 具体的には、まず、ハイパーグラフトランスフォーマーネットワークを用いたユーザとアイテム間のグローバルな協調効果を維持するために、graph neural cfパラダイムに力を与える。 グローバルな状況下では,ユーザとテムの相互作用グラフ上のデータ拡張のために,クロスビューな自己教師付き学習コンポーネントを提案し,レコメンダシステムの堅牢性を高める。 SHTは様々な最先端のベースラインの性能を大幅に向上させることができる。 さらなるアブレーション研究は、SHTレコメンデーションフレームワークが、データの分散性やノイズ問題を緩和する上で、優れた表現能力を示している。 ソースコードと評価データセットは以下の通りである。

Graph Neural Networks (GNNs) have been shown as promising solutions for collaborative filtering (CF) with the modeling of user-item interaction graphs. The key idea of existing GNN-based recommender systems is to recursively perform the message passing along the user-item interaction edge for refining the encoded embeddings. Despite their effectiveness, however, most of the current recommendation models rely on sufficient and high-quality training data, such that the learned representations can well capture accurate user preference. User behavior data in many practical recommendation scenarios is often noisy and exhibits skewed distribution, which may result in suboptimal representation performance in GNN-based models. In this paper, we propose SHT, a novel Self-Supervised Hypergraph Transformer framework (SHT) which augments user representations by exploring the global collaborative relationships in an explicit way. Specifically, we first empower the graph neural CF paradigm to maintain global collaborative effects among users and items with a hypergraph transformer network. With the distilled global context, a cross-view generative self-supervised learning component is proposed for data augmentation over the user-item interaction graph, so as to enhance the robustness of recommender systems. Extensive experiments demonstrate that SHT can significantly improve the performance over various state-of-the-art baselines. Further ablation studies show the superior representation ability of our SHT recommendation framework in alleviating the data sparsity and noise issues. The source code and evaluation datasets are available at: https://github.com/akaxlh/SHT.
翻訳日:2022-08-01 13:06:45 公開日:2022-07-28
# クロスリンガル転送によるニュースレコメンデーションの改善

Improving Few-shot News Recommendation via Cross-lingual Transfer ( http://arxiv.org/abs/2207.14370v1 )

ライセンス: Link先を確認
Taicheng Guo, Lu Yu, Xiangliang Zhang(参考訳) コールドスタート問題は,温かいユーザのインタラクション記録を多用して,寒冷なユーザの嗜好を推測する一般的な考え方に従えば,レコメンデーションシステムにおいて広く認識され,研究されている。 しかし、これらのソリューションのパフォーマンスは、温かいユーザから利用できるレコードの量によって制限される。 したがって、少数のユーザによるインタラクションレコードに基づくレコメンデーションシステムを構築することは、不人気あるいは初期段階のレコメンデーションプラットフォームにとって依然として難しい問題である。 本稿は,ニュースレコメンデーションにおける2つの観察に基づく限定的レコメンデーション問題を解決することに焦点を当てる。 まず、異なるプラットフォーム(異なる言語でも)でのニュースは、同様のトピックを共有する可能性がある。 第二に、これらのトピックに対するユーザの好みは、異なるプラットフォーム間で転送可能である。 そこで本稿では,リッチソースドメインから低リソースターゲットドメインにユーザニュースの好みを移すことで,ニュースレコメンデーションの少ない課題を解決することを提案する。 重複するユーザやニュースを伴わずに異なる言語で2つのドメインをブリッジするために,2つのドメインで意味的に類似したニュースを整列するニュースエンコーダとして,教師なし言語間移動モデルを提案する。 ユーザエンコーダは、アライメントされたニュースエンコーディングの上に構築され、ソースからのユーザの好みをターゲットドメインに転送する。 2つの実世界のニュースレコメンデーションデータセットにおける実験結果から,提案手法は,最先端のベースラインと比較して,少数のニュースレコメンデーションに対して優れた性能を示す。

The cold-start problem has been commonly recognized in recommendation systems and studied by following a general idea to leverage the abundant interaction records of warm users to infer the preference of cold users. However, the performance of these solutions is limited by the amount of records available from warm users to use. Thus, building a recommendation system based on few interaction records from a few users still remains a challenging problem for unpopular or early-stage recommendation platforms. This paper focuses on solving the few-shot recommendation problem for news recommendation based on two observations. First, news at different platforms (even in different languages) may share similar topics. Second, the user preference over these topics is transferable across different platforms. Therefore, we propose to solve the few-shot news recommendation problem by transferring the user-news preference from a rich source domain to a low-resource target domain. To bridge two domains in different languages without any overlapping users and news, we propose a novel unsupervised cross-lingual transfer model as the news encoder that aligns semantically similar news in two domains. A user encoder is constructed on top of the aligned news encoding and transfers the user preference from the source to the target domain. Experimental results on two real-world news recommendation datasets show the superior performance of our proposed method on addressing few-shot news recommendation, comparing to the state-of-the-art baselines.
翻訳日:2022-08-01 13:06:21 公開日:2022-07-28
# 置換テストによる深層学習と仮説駆動分析のギャップを埋める

Bridging the Gap between Deep Learning and Hypothesis-Driven Analysis via Permutation Testing ( http://arxiv.org/abs/2207.14349v1 )

ライセンス: Link先を確認
Magdalini Paschali and Qingyu Zhao and Ehsan Adeli and Kilian M. Pohl(参考訳) 神経科学研究における基本的なアプローチは、神経心理学的および行動学的尺度に基づいて仮説をテストすることである。 近年、深層学習は、要因の集合から結果を予測し、予測を駆動する最も「非形式的」な要素を特定することによって、そのような分析を行うための潜在的代替アプローチとなっている。 しかし、このアプローチは仮説を支持する因子の統計的意義と関係がないため、影響は限られている。 本稿では,データ駆動型ディープラーニング分析に仮説テストを統合する,置換テストの概念に基づくフレキシブルでスケーラブルなアプローチを提案する。 NIMH Research Domain Criteria (RDoC) による抑うつ性障害の症状である負の有病率を予測するため, 若年者における全国アルコール・神経発達コンソーシアム(NCANDA)の621名の年次自己申告者に対するアプローチを適用した。 本手法は症状を説明する危険因子の分類に成功している。

A fundamental approach in neuroscience research is to test hypotheses based on neuropsychological and behavioral measures, i.e., whether certain factors (e.g., related to life events) are associated with an outcome (e.g., depression). In recent years, deep learning has become a potential alternative approach for conducting such analyses by predicting an outcome from a collection of factors and identifying the most "informative" ones driving the prediction. However, this approach has had limited impact as its findings are not linked to statistical significance of factors supporting hypotheses. In this article, we proposed a flexible and scalable approach based on the concept of permutation testing that integrates hypothesis testing into the data-driven deep learning analysis. We apply our approach to the yearly self-reported assessments of 621 adolescent participants of the National Consortium of Alcohol and Neurodevelopment in Adolescence (NCANDA) to predict negative valence, a symptom of major depressive disorder according to the NIMH Research Domain Criteria (RDoC). Our method successfully identifies categories of risk factors that further explain the symptom.
翻訳日:2022-08-01 13:00:49 公開日:2022-07-28
# 文脈分布を用いた分散確率バンディット学習

Distributed Stochastic Bandit Learning with Context Distributions ( http://arxiv.org/abs/2207.14391v1 )

ライセンス: Link先を確認
Jiabin Lin and Shana Moothedath(参考訳) 本研究では,mエージェントが協調して作業し,中央サーバの調整下で最適な行動を選択することで,全体の後悔を最小限に抑える分散確率的マルチアームコンテクストバンディットの問題について検討する。 我々のモデルでは、敵は可能なコンテキストの集合上の分布を選択し、エージェントはコンテキスト分布のみを観察し、正確なコンテキストはエージェントに未知である。 このような状況は、例えば、天気予報や株式市場の予測のように、コンテキスト自体が騒がしい測定である場合や予測メカニズムに基づいて発生する。 我々のゴールは、累積報酬を最大化するために最適な行動列を選択する分散アルゴリズムを開発することである。 特徴ベクトル変換を行い, UCBアルゴリズムを用いて文脈分布を持つ確率的包帯に対するUTBアルゴリズムを提案し, 線形パラメタ化報酬関数に対してそれぞれ$O(d\sqrt{MT}log^2T)$と$O(M^{1.5}d^3)$の残差と通信境界を達成できることを証明する。 また、エージェントがアクションを選択した後、実際のコンテキストを観察するケースも検討する。 この設定のために,追加情報を利用してより厳格な後悔の結束を達成するための修正アルゴリズムを提案する。 最後にアルゴリズムの性能を検証し,合成データと実世界のmovielensデータセットの広範なシミュレーションを用いて,他のベースライン手法と比較した。

We study the problem of distributed stochastic multi-arm contextual bandit with unknown contexts, in which M agents work collaboratively to choose optimal actions under the coordination of a central server in order to minimize the total regret. In our model, an adversary chooses a distribution on the set of possible contexts and the agents observe only the context distribution and the exact context is unknown to the agents. Such a situation arises, for instance, when the context itself is a noisy measurement or based on a prediction mechanism as in weather forecasting or stock market prediction. Our goal is to develop a distributed algorithm that selects a sequence of optimal actions to maximize the cumulative reward. By performing a feature vector transformation and by leveraging the UCB algorithm, we propose a UCB algorithm for stochastic bandits with context distribution and prove that our algorithm achieves a regret and communications bounds of $O(d\sqrt{MT}log^2T)$ and $O(M^{1.5}d^3)$, respectively, for linearly parametrized reward functions. We also consider a case where the agents observe the actual context after choosing the action. For this setting we presented a modified algorithm that utilizes the additional information to achieve a tighter regret bound. Finally, we validated the performance of our algorithms and compared it with other baseline approaches using extensive simulations on synthetic data and on the real world movielens dataset.
翻訳日:2022-08-01 13:00:27 公開日:2022-07-28
# SPOT-the-Difference Self-Supervised Pre-training for Anomaly Detection and Segmentation

SPot-the-Difference Self-Supervised Pre-training for Anomaly Detection and Segmentation ( http://arxiv.org/abs/2207.14315v1 )

ライセンス: Link先を確認
Yang Zou, Jongheon Jeong, Latha Pemula, Dongqing Zhang, Onkar Dabeer(参考訳) 視覚異常検出は産業品質検査で一般的に用いられる。 本稿では,1クラスと2クラスの5/10/ハイショットトレーニング設定における異常検出とセグメンテーションを改善するために,新しいデータセットと,ImageNet事前学習のための自己教師付き学習手法を提案する。 3つの領域の12のオブジェクトをカバーする10,821個の高解像度カラーイメージ(9,621個の正常および1,200個の異常サンプル)からなるvisaデータセットをリリースし、これまでで最大の産業用異常検出データセットとなった。 画像および画素レベルのラベルが提供される。 また,SPD(SPot-the-Difference)という,SimSiam,MoCo,SimCLRなどの自己教師付き事前トレーニングを正規化して,異常検出タスクにより適する,新たな自己教師付きフレームワークを提案する。 VisA と MVTec-AD データセットを用いた実験により、SPD は対照的な事前学習ベースラインや教師付き事前学習さえも一貫して改善していることが示された。 例えば、SPDは異常セグメンテーションの精度-リコール曲線(AU-PR)の面積をSimSiamより5.9%、SimSiamより6.8%改善し、それぞれ2級ハイショット方式で事前訓練を監督している。 このプロジェクトをhttp://github.com/amazon-research/spot-diffでオープンソース化しました。

Visual anomaly detection is commonly used in industrial quality inspection. In this paper, we present a new dataset as well as a new self-supervised learning method for ImageNet pre-training to improve anomaly detection and segmentation in 1-class and 2-class 5/10/high-shot training setups. We release the Visual Anomaly (VisA) Dataset consisting of 10,821 high-resolution color images (9,621 normal and 1,200 anomalous samples) covering 12 objects in 3 domains, making it the largest industrial anomaly detection dataset to date. Both image and pixel-level labels are provided. We also propose a new self-supervised framework - SPot-the-difference (SPD) - which can regularize contrastive self-supervised pre-training, such as SimSiam, MoCo and SimCLR, to be more suitable for anomaly detection tasks. Our experiments on VisA and MVTec-AD dataset show that SPD consistently improves these contrastive pre-training baselines and even the supervised pre-training. For example, SPD improves Area Under the Precision-Recall curve (AU-PR) for anomaly segmentation by 5.9% and 6.8% over SimSiam and supervised pre-training respectively in the 2-class high-shot regime. We open-source the project at http://github.com/amazon-research/spot-diff .
翻訳日:2022-08-01 12:51:44 公開日:2022-07-28
# pro-tuning: 視覚タスクのための統一的なプロンプトチューニング

Pro-tuning: Unified Prompt Tuning for Vision Tasks ( http://arxiv.org/abs/2207.14381v1 )

ライセンス: Link先を確認
Xing Nie, Bolin Ni, Jianlong Chang, Gaomeng Meng, Chunlei Huo, Zhaoxiang Zhang, Shiming Xiang, Qi Tian, Chunhong Pan(参考訳) コンピュータビジョンでは、微調整は、訓練済みの視覚モデルを利用して下流のタスクを実行するデファクトアプローチである。 しかし、パラメータ非効率なグローバルアップデートを採用し、高品質なダウンストリームデータに大きく依存しているため、実際にデプロイするのは極めて難しい。 近年,先行訓練されたモデルに下流タスクを適応させるタスク関連プロンプトを付加したプロンプトベースの学習により,多くの下流タスクの性能が大幅に向上した。 この作業では、微調整の代替として、プロンプトから得られるメリットをビジョンモデルに拡張します。 そこで本研究では,様々な下流視覚タスクに凍結視覚モデルを適用するためのパラメータ効率の高いプロンプトチューニング(pro-tuning)を提案する。 プロチューニングの鍵は、プレトレーニングされたモデルが凍結されたダウンストリーム入力イメージに対するタスク固有のビジョンプロンプトの学習である。 追加パラメータをトレーニングするだけで、さまざまなcnnベースおよびtransformerベースのアーキテクチャで作業することができる。 広範囲にわたる実験により、プロチューニングは、画像分類(ジェネリックオブジェクト、クラス不均衡、画像の汚損、敵対的ロバスト性、分布外一般化)や、オブジェクト検出やセマンティックセグメンテーションなどの密集した予測タスクなど、幅広い視覚タスクやシナリオにおいて微調整よりも優れていることが証明された。

In computer vision, fine-tuning is the de-facto approach to leverage pre-trained vision models to perform downstream tasks. However, deploying it in practice is quite challenging, due to adopting parameter inefficient global update and heavily relying on high-quality downstream data. Recently, prompt-based learning, which adds a task-relevant prompt to adapt the downstream tasks to pre-trained models, has drastically boosted the performance of many natural language downstream tasks. In this work, we extend this notable transfer ability benefited from prompt into vision models as an alternative to fine-tuning. To this end, we propose parameter-efficient Prompt tuning (Pro-tuning) to adapt frozen vision models to various downstream vision tasks. The key to Pro-tuning is prompt-based tuning, i.e., learning task-specific vision prompts for downstream input images with the pre-trained model frozen. By only training a few additional parameters, it can work on diverse CNN-based and Transformer-based architectures. Extensive experiments evidence that Pro-tuning outperforms fine-tuning in a broad range of vision tasks and scenarios, including image classification (generic objects, class imbalance, image corruption, adversarial robustness, and out-of-distribution generalization), and dense prediction tasks such as object detection and semantic segmentation.
翻訳日:2022-08-01 12:51:13 公開日:2022-07-28
# データフィルタリングによるテキスト分類のための効率的なモデルファインタニング

Efficient Model Finetuning for Text Classification via Data Filtering ( http://arxiv.org/abs/2207.14386v1 )

ライセンス: Link先を確認
Xu Ouyang, Shahina Mohd Azam Ansari, Felix Xiaozhu Lin, Yangfeng Ji(参考訳) モデルファインタニングは現代のNLPの中心であり、その効率を最大化する。 トレーニング例によるモチベーションは、しばしば冗長であり、ストリーミング形式でサンプルをフィルタリングするアルゴリズムを設計する。 提案手法は,(1)後方伝播をスキップするためのトレーニング損失閾値を自動的に決定する,(2)前方伝播をスキップするためのメタ予測器を維持する,の2つである。 3段階のプロセスとして実現された我々のアルゴリズムは、様々なベンチマークに基づいて、必要なトレーニング例を5$\times$まで削減します。 本手法は,1回のトレーニングエポックでも有効であり,各トレーニング例に1回だけ遭遇する。 実装は簡単で、層凍結のような既存のモデル微調整の最適化と互換性がある。

As model finetuning is central to the modern NLP, we set to maximize its efficiency. Motivated by training examples are often redundant, we design an algorithm that filters the examples in a streaming fashion. Our key techniques are two: (1) automatically determine a training loss threshold for skipping the backward propagation; and (2) maintain a meta predictor for further skipping the forward propagation. Incarnated as a three-stage process, on a diverse set of benchmarks our algorithm reduces the required training examples by up to 5$\times$ while only seeing minor degradation on average. Our method is effective even for as few as one training epoch, where each training example is encountered once. It is simple to implement and is compatible with the existing model finetuning optimizations such as layer freezing.
翻訳日:2022-08-01 12:43:22 公開日:2022-07-28
# DSTC9における対話性評価

Interactive Evaluation of Dialog Track at DSTC9 ( http://arxiv.org/abs/2207.14403v1 )

ライセンス: Link先を確認
Shikib Mehri, Yulan Feng, Carla Gordon, Seyed Hossein Alavi, David Traum, Maxine Eskenazi(参考訳) ダイアログ研究の最終的な目標は、実際のユーザによるインタラクティブな設定で効果的に使用できるシステムを開発することである。 そこで本研究では,第9回ダイアログシステム技術チャレンジにおいて対話的評価を行った。 このトラックは2つのサブタスクで構成されていた。 最初のサブタスクは知識に基づく応答生成モデルの構築であった。 第2のサブタスクは、実際のユーザとの対話的な設定で評価することで、静的データセットを越えてダイアログモデルを拡張することを目的としている。 私たちのトラックでは、参加者が強い応答生成モデルを開発し、実際のユーザとのやりとりに拡張する戦略を探求するように挑戦しています。 静的コーパスからインタラクティブ評価への進歩は、ユニークな課題をもたらし、オープンドメインダイアログシステムのより詳細な評価を促進する。 本稿では,方法論と結果を含むトラックの概要について述べる。 さらに、オープンドメインダイアログモデルの評価方法に関する洞察も提供する。

The ultimate goal of dialog research is to develop systems that can be effectively used in interactive settings by real users. To this end, we introduced the Interactive Evaluation of Dialog Track at the 9th Dialog System Technology Challenge. This track consisted of two sub-tasks. The first sub-task involved building knowledge-grounded response generation models. The second sub-task aimed to extend dialog models beyond static datasets by assessing them in an interactive setting with real users. Our track challenges participants to develop strong response generation models and explore strategies that extend them to back-and-forth interactions with real users. The progression from static corpora to interactive evaluation introduces unique challenges and facilitates a more thorough assessment of open-domain dialog systems. This paper provides an overview of the track, including the methodology and results. Furthermore, it provides insights into how to best evaluate open-domain dialog models
翻訳日:2022-08-01 12:43:11 公開日:2022-07-28
# グラフ抽象化による逆3人称映像からの逆強化学習

Inverse Reinforcement Learning from Diverse Third-Person Videos via Graph Abstraction ( http://arxiv.org/abs/2207.14299v1 )

ライセンス: Link先を確認
Sateesh Kumar, Jonathan Zamora, Nicklas Hansen, Rishabh Jangir, Xiaolong Wang(参考訳) 3人称ビデオからの逆強化学習(IRL)の研究は、ロボット作業のための手動報酬設計の必要性を除去するための奨励的な結果を示している。 しかし、以前の作品のほとんどは、ビデオの比較的限られた領域からのトレーニングによって制限されている。 本稿では,3人称IRLの真の可能性は,ビデオの多様性を高めることにある,と論じる。 様々なビデオから報奨機能を学ぶために,動画上でグラフ抽象化を行い,そのグラフ空間で時間マッチングを行い,タスクの進捗を計測する。 私たちの洞察では、タスクはグラフを形成するエンティティ相互作用によって記述することができ、このグラフ抽象化はテクスチャのような無関係な情報を取り除くのに役立ち、より堅牢な報酬関数をもたらす。 我々は,X-MRIにおけるクロスボデーメント学習と実ロボット操作のための人間の実演からの学習に対するアプローチであるGraphIRLを評価した。 従来の手法よりも多種多様なビデオデモに対するロバスト性を大幅に向上させ,実際のロボットプッシュタスクにおいて手動報酬設計よりも優れた結果が得られることを示した。 ビデオはhttps://sateeshkumar21.github.io/graphirlで閲覧できる。

Research on Inverse Reinforcement Learning (IRL) from third-person videos has shown encouraging results on removing the need for manual reward design for robotic tasks. However, most prior works are still limited by training from a relatively restricted domain of videos. In this paper, we argue that the true potential of third-person IRL lies in increasing the diversity of videos for better scaling. To learn a reward function from diverse videos, we propose to perform graph abstraction on the videos followed by temporal matching in the graph space to measure the task progress. Our insight is that a task can be described by entity interactions that form a graph, and this graph abstraction can help remove irrelevant information such as textures, resulting in more robust reward functions. We evaluate our approach, GraphIRL, on cross-embodiment learning in X-MAGICAL and learning from human demonstrations for real-robot manipulation. We show significant improvements in robustness to diverse video demonstrations over previous approaches, and even achieve better results than manual reward design on a real robot pushing task. Videos are available at https://sateeshkumar21.github.io/GraphIRL .
翻訳日:2022-08-01 12:38:42 公開日:2022-07-28
# ptychographyにおける過剰サンプリングに対する深い生成的アプローチ

A Deep Generative Approach to Oversampling in Ptychography ( http://arxiv.org/abs/2207.14392v1 )

ライセンス: Link先を確認
Semih Barutcu, Aggelos K. Katsaggelos, Do\u{g}a G\"ursoy(参考訳) Ptychographyは、ナノスケールで非侵襲的なイメージングを可能にする、よく研究された位相イメージング手法である。 素材科学や防衛産業など様々な分野に応用された主流の技法へと発展してきた。 Ptychographyの大きな欠点は、適切な再構築を実現するために隣接する照明領域間で高い重なり合いが要求されるため、長いデータ取得時間である。 スキャンエリア間の重複を減らす従来のアプローチは、アーティファクトによる再構築をもたらす。 本稿では, ptychography におけるオーバーサンプリング要求を満たすため, 深層生成ネットワークからサンプリングしたデータを用いて, 疎に取得またはアンダーサンプリングしたデータを補完する手法を提案する。 深層生成ネットワークを事前学習し、データ収集時にその出力を計算できるので、実験データとデータ取得時間を低減することができる。 本手法は,従来提案してきた手法と比較し,復元品質を提示することで検証し,提案手法の長所と短所についてコメントする。

Ptychography is a well-studied phase imaging method that makes non-invasive imaging possible at a nanometer scale. It has developed into a mainstream technique with various applications across a range of areas such as material science or the defense industry. One major drawback of ptychography is the long data acquisition time due to the high overlap requirement between adjacent illumination areas to achieve a reasonable reconstruction. Traditional approaches with reduced overlap between scanning areas result in reconstructions with artifacts. In this paper, we propose complementing sparsely acquired or undersampled data with data sampled from a deep generative network to satisfy the oversampling requirement in ptychography. Because the deep generative network is pre-trained and its output can be computed as we collect data, the experimental data and the time to acquire the data can be reduced. We validate the method by presenting the reconstruction quality compared to the previously proposed and traditional approaches and comment on the strengths and drawbacks of the proposed approach.
翻訳日:2022-08-01 12:38:22 公開日:2022-07-28
# マルチラベル不均衡ケストX線データセットの深層学習

Deep learning for understanding multilabel imbalanced Chest X-ray datasets ( http://arxiv.org/abs/2207.14408v1 )

ライセンス: Link先を確認
Helena Liz, Javier Huertas-Tato, Manuel S\'anchez-Monta\~n\'es, Javier Del Ser, David Camacho(参考訳) ここ数年、畳み込みニューラルネットワーク(cnns)は、x線の自動分析のような分類問題において特徴を抽出する能力と優れた性能のおかげで、コンピュータビジョンの分野を支配してきた。 残念ながら、これらのニューラルネットワークはブラックボックスアルゴリズムと見なされており、アルゴリズムが最終的な結果をどのように達成したかを理解することは不可能である。 これらのアルゴリズムをさまざまな分野に適用し、方法論がどのように機能するかをテストするには、eXplainable AI技術を使用する必要があります。 医療分野におけるほとんどの仕事は、バイナリやマルチクラス分類の問題に焦点を当てている。 しかし、胸部X線のような多くの現実の状況では、異なる疾患の放射線学的兆候が同時に現れることがある。 これは「マルチラベル分類問題」と呼ばれる問題を引き起こす。 これらのタスクの欠点はクラスの不均衡であり、異なるラベルは同じ数のサンプルを持っていない。 本論文の主な貢献は,不均衡な胸部X線データセットのディープラーニング手法である。 現在使用されていないPadChestデータセットと、ヒートマップに基づいた新しいeXplainable AIテクニックのベースラインを確立する。 この技術は確率とモデル間マッチングも含む。 本システムの結果は,特にラベル数を考慮すると有望である。 さらに、ヒートマップは、専門家が決定に使用する領域をマークする、期待される領域にマッチする。

Over the last few years, convolutional neural networks (CNNs) have dominated the field of computer vision thanks to their ability to extract features and their outstanding performance in classification problems, for example in the automatic analysis of X-rays. Unfortunately, these neural networks are considered black-box algorithms, i.e. it is impossible to understand how the algorithm has achieved the final result. To apply these algorithms in different fields and test how the methodology works, we need to use eXplainable AI techniques. Most of the work in the medical field focuses on binary or multiclass classification problems. However, in many real-life situations, such as chest X-rays, radiological signs of different diseases can appear at the same time. This gives rise to what is known as "multilabel classification problems". A disadvantage of these tasks is class imbalance, i.e. different labels do not have the same number of samples. The main contribution of this paper is a Deep Learning methodology for imbalanced, multilabel chest X-ray datasets. It establishes a baseline for the currently underutilised PadChest dataset and a new eXplainable AI technique based on heatmaps. This technique also includes probabilities and inter-model matching. The results of our system are promising, especially considering the number of labels used. Furthermore, the heatmaps match the expected areas, i.e. they mark the areas that an expert would use to make the decision.
翻訳日:2022-08-01 12:38:05 公開日:2022-07-28
# 多重属性フェアネス:フラッド検出への応用

Multiple Attribute Fairness: Application to Fraud Detection ( http://arxiv.org/abs/2207.14355v1 )

ライセンス: Link先を確認
Meghanath Macha Y, Sriram Ravindran, Deepak Pai, Anish Narang, Vijay Srivastava(参考訳) 本稿では, 人気均等度制度における等値条件を緩和する公平度尺度を提案する。 我々は、モデルに依存しないグリッドベースの反復的ヒューリスティックを設計し、その測定値に適合するように、感度特性値当たりの結果を校正する。 ヒューリスティックは高いアリティ属性値を扱うように設計され、異なる保護属性値にわたる結果の属性ごとのサニタイズを行う。 複数の属性に対するヒューリスティックも拡張しています。 当社のモチベーションアプリケーションである不正検出に注目して,提案するヒューリスティックは,複数の保護属性と複数の保護属性の複数の値に対して公平性を実現することができることを示した。 2つのグループに焦点を当てた現在のフェアネス技術と比較すると、いくつかの公開データセットで同等のパフォーマンスを実現しています。

We propose a fairness measure relaxing the equality conditions in the popular equal odds fairness regime for classification. We design an iterative, model-agnostic, grid-based heuristic that calibrates the outcomes per sensitive attribute value to conform to the measure. The heuristic is designed to handle high arity attribute values and performs a per attribute sanitization of outcomes across different protected attribute values. We also extend our heuristic for multiple attributes. Highlighting our motivating application, fraud detection, we show that the proposed heuristic is able to achieve fairness across multiple values of a single protected attribute, multiple protected attributes. When compared to current fairness techniques, that focus on two groups, we achieve comparable performance across several public data sets.
翻訳日:2022-08-01 12:31:31 公開日:2022-07-28
# プログラム終了にグラフニューラルネットワークを使用する

Using Graph Neural Networks for Program Termination ( http://arxiv.org/abs/2207.14648v1 )

ライセンス: Link先を確認
Yoav Alon and Cristina David(参考訳) 終了解析はプログラムの終了挙動を調査し、様々なプログラムバグ(例えば、吊り下げプログラム、サービス拒否脆弱性)を引き起こすノンターミネーションを検出することを目的としている。 形式的アプローチを超えて、ニューラルネットワークを用いたプログラムの終了挙動を推定する様々な試みがなされている。 しかし、これらのアプローチの大部分は、強い健全性を保証するための形式的な方法に頼り続けており、結果として同様の制限に苦しめられている。 本稿では,形式的手法から脱却し,機械学習モデルの確率的性質を取り入れる。 問題解決者によって解釈できる厳密な保証を目標とするのではなく、プログラムの終了動作と、プログラマがデバッグ目的に使用できる非終了(適用可能な場合)の原因を推定することを目的としています。 プログラム終了のためのニューラルネットワークを用いた従来の手法と比較して,グラフニューラルネットワークを用いたプログラムのグラフ表現も活用する。 非ターミネーションバグの理解とデバッグをさらに支援するため、これまで他のアプリケーションドメインで使用されていた注意とセマンティックセグメンテーションの概念をプログラムに適用する。 全体としては、グラフ畳み込みネットワークとグラフアテンションネットワークに基づくプログラム終了のための分類器と、非ターミネーションを引き起こす可能性のあるastノードをローカライズするセマンティックセグメンテーショングラフニューラルネットワークを設計し実装した。 また,セマンティックセグメンテーションによって提供される情報とプログラムスライシングを組み合わせることで,デバッグをさらに支援できることを示す。

Termination analyses investigate the termination behavior of programs, intending to detect nontermination, which is known to cause a variety of program bugs (e.g. hanging programs, denial-of-service vulnerabilities). Beyond formal approaches, various attempts have been made to estimate the termination behavior of programs using neural networks. However, the majority of these approaches continue to rely on formal methods to provide strong soundness guarantees and consequently suffer from similar limitations. In this paper, we move away from formal methods and embrace the stochastic nature of machine learning models. Instead of aiming for rigorous guarantees that can be interpreted by solvers, our objective is to provide an estimation of a program's termination behavior and of the likely reason for nontermination (when applicable) that a programmer can use for debugging purposes. Compared to previous approaches using neural networks for program termination, we also take advantage of the graph representation of programs by employing Graph Neural Networks. To further assist programmers in understanding and debugging nontermination bugs, we adapt the notions of attention and semantic segmentation, previously used for other application domains, to programs. Overall, we designed and implemented classifiers for program termination based on Graph Convolutional Networks and Graph Attention Networks, as well as a semantic segmentation Graph Neural Network that localizes AST nodes likely to cause nontermination. We also illustrated how the information provided by semantic segmentation can be combined with program slicing to further aid debugging.
翻訳日:2022-08-01 12:30:42 公開日:2022-07-28
# 自動校正によるジーニ指標を用いたモデル選択

Model selection with Gini indices under auto-calibration ( http://arxiv.org/abs/2207.14372v1 )

ライセンス: Link先を確認
Mario V. W\"uthrich(参考訳) 一般に、ジニ指数は一貫したスコア付け規則を与えない。 したがって、ジーニ指数の最大化は間違った決定につながる可能性がある。 主な問題は、ジニ指数がキャリブレーションに敏感でないランクに基づくスコアであることである。 自動校正回帰モデルのクラスに限定した場合、Gini指数が一貫したスコアリングを可能にすることを示す。

In general, the Gini index does not give a consistent scoring rule. Therefore, maximizing the Gini index may lead to a wrong decision. The main issue is that the Gini index is a rank-based score that is not calibration-sensitive. We show that the Gini index allows for consistent scoring if we restrict it to the class of auto-calibrated regression models.
翻訳日:2022-08-01 12:28:14 公開日:2022-07-28
# 種々の細胞型ライブセル画像のためのユニバーサルインスタンスセグメンテーションネットワークの訓練とイメージングモダリティ

Training a universal instance segmentation network for live cell images of various cell types and imaging modalities ( http://arxiv.org/abs/2207.14347v1 )

ライセンス: Link先を確認
Tianqi Guo, Yin Wang, Luis Solorio, Jan P. Allebach(参考訳) 我々は最近の知見を,様々な細胞タイプと画像モダリティのための普遍的セグメンテーションネットワークのトレーニングで共有している。 本手法は,各コンポーネントを個別に評価できる汎用u-netアーキテクチャに基づいて構築した。 従来のバイナリトレーニングターゲットを、直接インスタンスセグメンテーション用の3つのクラスを含むように修正しました。 セグメンテーション性能について,トレーニングスキーム,トレーニング設定,ネットワークバックボーン,個別モジュールについて詳細な実験を行った。 提案手法では,各データセットからミニバッチを順次抽出し,最適化ステップの前に勾配を蓄積する。 ユニバーサルネットワークをトレーニングする鍵は、すべてのデータセットを常時監視することであり、各データセットをバイアスのない方法でサンプリングする必要があります。 我々の実験は、細胞の種類や画像のモダリティにまたがって細胞の境界を定義する共通の特徴があることを示唆している。 例えば、クロスエントロピー損失関数の不均一なクラス重み、よく設計された学習率スケジューラ、コンテキスト情報のためのより大きな画像作物、バランスのとれないクラスのための追加の損失項などである。 また, セグメンテーション性能は, より信頼性の高い統計推定とセマンティック理解の改善により, グループ正規化層とアトラス空間ピラミッドプールモジュールの恩恵を受けることができた。 我々は, IEEE International Symposium on Biomedical Imaging (ISBI) 2021で開かれた第6回細胞追跡チャレンジ(CTC)に参加した。 本手法は, 初回サーチにおいて最良ランナーとして評価され, 概要発表の準備として, 第3回大会で第3位を獲得した。

We share our recent findings in an attempt to train a universal segmentation network for various cell types and imaging modalities. Our method was built on the generalized U-Net architecture, which allows the evaluation of each component individually. We modified the traditional binary training targets to include three classes for direct instance segmentation. Detailed experiments were performed regarding training schemes, training settings, network backbones, and individual modules on the segmentation performance. Our proposed training scheme draws minibatches in turn from each dataset, and the gradients are accumulated before an optimization step. We found that the key to training a universal network is all-time supervision on all datasets, and it is necessary to sample each dataset in an unbiased way. Our experiments also suggest that there might exist common features to define cell boundaries across cell types and imaging modalities, which could allow application of trained models to totally unseen datasets. A few training tricks can further boost the segmentation performance, including uneven class weights in the cross-entropy loss function, well-designed learning rate scheduler, larger image crops for contextual information, and additional loss terms for unbalanced classes. We also found that segmentation performance can benefit from group normalization layer and Atrous Spatial Pyramid Pooling module, thanks to their more reliable statistics estimation and improved semantic understanding, respectively. We participated in the 6th Cell Tracking Challenge (CTC) held at IEEE International Symposium on Biomedical Imaging (ISBI) 2021 using one of the developed variants. Our method was evaluated as the best runner up during the initial submission for the primary track, and also secured the 3rd place in an additional round of competition in preparation for the summary publication.
翻訳日:2022-08-01 12:25:53 公開日:2022-07-28
# グラフ畳み込みネットワークを用いたパーソナライズ表現の学習

Learning Personalized Representations using Graph Convolutional Network ( http://arxiv.org/abs/2207.14298v1 )

ライセンス: Link先を確認
Hongyu Shen, Jinoh Oh, Shuai Zhao, Guoyin Wang, Tara Taghavi, Sungjin Lee(参考訳) alexaのスキルルーティングエクスペリエンスをパーソナライズするための重要なタスクは、顧客の行動を正確に反映する表現の生成である。 現時点では、alexaトラフィックをプロバイダやスキルにルーティングする役割を担っているdynamic routing(dr)チームは、2つの機能を個人信号として提供する – 絶対トラフィック数と、ユーザ毎のスキル使用量の正規化トラフィック数 – に依存している。 どちらも、顧客とスキルの間のインタラクションのためのネットワークベースの構造を考慮せず、顧客好みに関するよりリッチな情報を含んでいる。 本研究では、まず、ユーザ要求(発話)をエッジとしてモデル化する、異種エッジ属性グラフに基づく、呼び出しされたスキルとの過去のインタラクションを構築する。 次に、グラフ畳み込みネットワーク(GCN)に基づくモデル、すなわちパーソナライズされた動的ルーティング特徴エンコーダ(PDRFE)を提案し、構築されたグラフから学習したパーソナライズされた顧客表現を生成する。 既存のモデルと比較すると、PDRFEはグラフ畳み込み関数でコンテキスト情報をキャプチャすることができる。 提案モデルの性能は,ユーザの学習した組込みとその引き金となるスキルから欠陥ラベルを予測する下流タスクである欠陥予測によって評価される。 提案したモデルに対するクロスエントロピー測定では,ベースラインと比較して最大41%の改善が見られた。

Generating representations that precisely reflect customers' behavior is an important task for providing personalized skill routing experience in Alexa. Currently, Dynamic Routing (DR) team, which is responsible for routing Alexa traffic to providers or skills, relies on two features to be served as personal signals: absolute traffic count and normalized traffic count of every skill usage per customer. Neither of them considers the network based structure for interactions between customers and skills, which contain richer information for customer preferences. In this work, we first build a heterogeneous edge attributed graph based customers' past interactions with the invoked skills, in which the user requests (utterances) are modeled as edges. Then we propose a graph convolutional network(GCN) based model, namely Personalized Dynamic Routing Feature Encoder(PDRFE), that generates personalized customer representations learned from the built graph. Compared with existing models, PDRFE is able to further capture contextual information in the graph convolutional function. The performance of our proposed model is evaluated by a downstream task, defect prediction, that predicts the defect label from the learned embeddings of customers and their triggered skills. We observe up to 41% improvements on the cross entropy metric for our proposed models compared to the baselines.
翻訳日:2022-08-01 12:19:53 公開日:2022-07-28
# 生涯学習システムの潜時特性

Latent Properties of Lifelong Learning Systems ( http://arxiv.org/abs/2207.14378v1 )

ライセンス: Link先を確認
Corban Rivera, Chace Ashcraft, Alexander New, James Schmidt, Gautam Vallabha(参考訳) 生涯学習を実証できる人工知能(AI)システムを作成することは根本的な課題であり、アルゴリズム特性を分析するために多くのアプローチやメトリクスが提案されている。 しかし、既存の生涯学習メトリクスでは、アルゴリズムによる貢献はタスクとシナリオ構造によって決定される。 この問題を軽減するために,生涯学習アルゴリズムの潜在特性を推定するアルゴリズム非依存なサロゲートモデリング手法を提案する。 合成データを用いた実験により,これらの特性を推定する手法を検証する。 サーロゲートモデルの構造を検証するために,生涯学習と生涯強化学習に適応した一般的な生涯学習手法とベースラインの集合から,実性能データを分析する。

Creating artificial intelligence (AI) systems capable of demonstrating lifelong learning is a fundamental challenge, and many approaches and metrics have been proposed to analyze algorithmic properties. However, for existing lifelong learning metrics, algorithmic contributions are confounded by task and scenario structure. To mitigate this issue, we introduce an algorithm-agnostic explainable surrogate-modeling approach to estimate latent properties of lifelong learning algorithms. We validate the approach for estimating these properties via experiments on synthetic data. To validate the structure of the surrogate model, we analyze real performance data from a collection of popular lifelong learning approaches and baselines adapted for lifelong classification and lifelong reinforcement learning.
翻訳日:2022-08-01 12:19:29 公開日:2022-07-28
# 大規模言語モデルと逆チューリングテスト

Large Language Models and the Reverse Turing Test ( http://arxiv.org/abs/2207.14382v1 )

ライセンス: Link先を確認
Terrence Sejnowski(参考訳) 大規模言語モデル(llm)は変貌を遂げた。 それらは事前訓練された基礎モデルであり、様々な自然言語タスクに微調整を施すことができ、それぞれが以前別のネットワークモデルを必要としていた。 これは、人間の言語の並外れた汎用性に一歩近づいたものである。 GPT-3および近年のLaMDAは、いくつかの例で最小限のプライミングの後、多くのトピックで人間と対話することができる。 しかし、これらのLSMが自分たちの言っていることを理解しているか、あるいは知性の兆候を示すかについて、幅広い反応があった。 この高いばらつきは、LLMの3つのインタビューで、非常に異なる結論に達する。 この相違を説明する新たな可能性が明らかになった。 LLMのインテリジェンスに見えるのは、実際にインタビュアーのインテリジェンスを反映したミラーかもしれない。 もしそうなら、インタビューを勉強することで、llmの知性よりもインタビュアーの知性と信念について学んでいるかもしれません。

Large Language Models (LLMs) have been transformative. They are pre-trained foundational models that can be adapted with fine tuning to many different natural language tasks, each of which previously would have required a separate network model. This is one step closer to the extraordinary versatility of human language. GPT-3 and more recently LaMDA can carry on dialogs with humans on many topics after minimal priming with a few examples. However, there has been a wide range of reactions on whether these LLMs understand what they are saying or exhibit signs of intelligence. This high variance is exhibited in three interviews with LLMs reaching wildly different conclusions. A new possibility was uncovered that could explain this divergence. What appears to be intelligence in LLMs may in fact be a mirror that reflects the intelligence of the interviewer, a remarkable twist that could be considered a Reverse Turing Test. If so, then by studying interviews we may be learning more about the intelligence and beliefs of the interviewer than the intelligence of the LLMs.
翻訳日:2022-08-01 12:14:19 公開日:2022-07-28
# LAD:ゼロショットダイアログのデータとしての言語モデル

LAD: Language Models as Data for Zero-Shot Dialog ( http://arxiv.org/abs/2207.14393v1 )

ライセンス: Link先を確認
Shikib Mehri, Yasemin Altun, Maxine Eskenazi(参考訳) 本稿では,タスク指向対話におけるゼロショット一般化を容易にするために,Language Models as Data (LAD)を提案する。 LADは、必要な構造的制約を伝達し、下流のニューラルダイアログモデルのトレーニングに使用できる多様な正確な合成データを作成するためのパラダイムである。 LADはGPT-3を利用して言語多様性を誘導する。 LADは、意図予測(+15%)、スロットフィリング(+31.4 F-1)、次のアクション予測(+11 F1)のゼロショット設定において、大幅なパフォーマンス向上を達成する。 さらに,対話的人間評価により,ladによる訓練は,対話における訓練と競合することが示された。 LADはオープンソースで、コードとデータはhttps://github.com/Shikib/lad.orgで公開されている。

To facilitate zero-shot generalization in taskoriented dialog, this paper proposes Language Models as Data (LAD). LAD is a paradigm for creating diverse and accurate synthetic data which conveys the necessary structural constraints and can be used to train a downstream neural dialog model. LAD leverages GPT-3 to induce linguistic diversity. LAD achieves significant performance gains in zero-shot settings on intent prediction (+15%), slot filling (+31.4 F-1) and next action prediction (+11 F1). Furthermore, an interactive human evaluation shows that training with LAD is competitive with training on human dialogs. LAD is open-sourced, with the code and data available at https://github.com/Shikib/lad.
翻訳日:2022-08-01 12:13:41 公開日:2022-07-28
# 眼球運動推定モデル解析

Eye Gaze Estimation Model Analysis ( http://arxiv.org/abs/2207.14373v1 )

ライセンス: Link先を確認
Aveena Kottwani, Ayush Kumar(参考訳) 機械学習を用いた視線推定手法について検討する。 視線推定は様々な行動分析やヒューマンコンピュータインタフェースにおいて一般的な問題である。 本研究の目的は,視線推定のための各種モデルについて検討し,非拘束環境における視線ランドマークを用いた視線方向予測の結果を示すことである。 制約のない現実の環境では、照明の変更やその他の視覚成果物などの要因により、機能ベースとモデルベースのメソッドが最近の外観ベースメソッドよりも優れている。 我々は、合成データにのみ訓練された目領域のランドマーク化のための学習に基づく手法について論じる。 検出されたランドマークを反復的モデル適合および軽量学習に基づく視線推定手法の入力として利用する方法と、そのモデルを個人に依存しないパーソナライズされた視線推定に利用する方法について検討する。

We explore techniques for eye gaze estimation using machine learning. Eye gaze estimation is a common problem for various behavior analysis and human-computer interfaces. The purpose of this work is to discuss various model types for eye gaze estimation and present the results from predicting gaze direction using eye landmarks in unconstrained settings. In unconstrained real-world settings, feature-based and model-based methods are outperformed by recent appearance-based methods due to factors like illumination changes and other visual artifacts. We discuss a learning-based method for eye region landmark localization trained exclusively on synthetic data. We discuss how to use detected landmarks as input to iterative model-fitting and lightweight learning-based gaze estimation methods and how to use the model for person-independent and personalized gaze estimations.
翻訳日:2022-08-01 12:13:12 公開日:2022-07-28
# イベントトリガー学習によるロバスト制御の性能向上

Improving the Performance of Robust Control through Event-Triggered Learning ( http://arxiv.org/abs/2207.14252v1 )

ライセンス: Link先を確認
Alexander von Rohr, Friedrich Solowjow, Sebastian Trimpe(参考訳) ロバストなコントローラは不確実性の下で設計されているが、パフォーマンスのコストがかかるフィードバックループの安定性を保証する。 時間不変システムのモデル不確実性は、最近提案された学習に基づく手法により低減され、データを用いたロバストコントローラの性能が向上する。 しかし実際には、ウェイトシフトや摩耗や裂け目などによって経年変化の形で不確実性を示すシステムが多く、学習ベースの制御器の性能や不安定性が低下する。 本稿では,レアあるいは遅い変化を伴うLQR問題において,不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。 私たちの重要なアイデアは、ロバストと学習したコントローラを切り替えることです。 まず,確率モデルを用いてモンテカルロ推定により学習相の最適長を推定する。 次に,lqrコストのモーメント生成関数に基づいて不確定システムの統計的テストを設計する。 テストは、制御中のシステムの変更を検出し、システム変更による制御性能の劣化時に再学習をトリガーする。 本研究では,ロバストな制御器ベースラインの性能向上を数値例で示す。

Robust controllers ensure stability in feedback loops designed under uncertainty but at the cost of performance. Model uncertainty in time-invariant systems can be reduced by recently proposed learning-based methods, thus improving the performance of robust controllers using data. However, in practice, many systems also exhibit uncertainty in the form of changes over time, e.g., due to weight shifts or wear and tear, leading to decreased performance or instability of the learning-based controller. We propose an event-triggered learning algorithm that decides when to learn in the face of uncertainty in the LQR problem with rare or slow changes. Our key idea is to switch between robust and learned controllers. For learning, we first approximate the optimal length of the learning phase via Monte-Carlo estimations using a probabilistic model. We then design a statistical test for uncertain systems based on the moment-generating function of the LQR cost. The test detects changes in the system under control and triggers re-learning when control performance deteriorates due to system changes. We demonstrate improved performance over a robust controller baseline in a numerical example.
翻訳日:2022-07-29 13:06:40 公開日:2022-07-28
# マスアートノイズを伴う学習用ハーフスペースの暗号ハードネス

Cryptographic Hardness of Learning Halfspaces with Massart Noise ( http://arxiv.org/abs/2207.14266v1 )

ライセンス: Link先を確認
Ilias Diakonikolas, Daniel M. Kane, Pasin Manurangsi, Lisheng Ren(参考訳) マスアート雑音の存在下でのpac学習半空間の複雑性について検討する。 この問題において、ラベル付き例 $(\mathbf{x}, y) \in \mathbb{r}^n \times \{ \pm 1\}$, ここで、$\mathbf{x}$ の分布は任意で、ラベル $y$ は、未知の半空間 $f: \mathbb{r}^n \to \{ \pm 1\}$, with flipping probability $\eta(\mathbf{x}) \leq \eta < 1/2$ のマッサート的腐敗である。 学習者の目標は、0-1エラーの少ない仮説を計算することである。 我々の主な成果は、この学習問題に対する最初の計算硬度結果である。 具体的には、誤差付き学習(lwe)問題の(広く信じられている)部分指数時間硬さを仮定すると、任意の普遍定数 $c \in (0, 1)$ に対して$\mathrm{opt} = 2^{-\log^{c} (n)}$ という最適な 0-1 誤差が小さい場合でも、多項式時間マッサート半空間学習者は$\omega(\eta)$ 以上のエラーを達成できない。 以前の研究は、統計クエリモデルにおける硬さの質的類似の証拠を提供していた。 計算硬度の結果は、Massartハーフスペースの多項式PAC学習可能性を本質的に解決し、その問題に対する既知の効率的な学習アルゴリズムが最善であることを示す。

We study the complexity of PAC learning halfspaces in the presence of Massart noise. In this problem, we are given i.i.d. labeled examples $(\mathbf{x}, y) \in \mathbb{R}^N \times \{ \pm 1\}$, where the distribution of $\mathbf{x}$ is arbitrary and the label $y$ is a Massart corruption of $f(\mathbf{x})$, for an unknown halfspace $f: \mathbb{R}^N \to \{ \pm 1\}$, with flipping probability $\eta(\mathbf{x}) \leq \eta < 1/2$. The goal of the learner is to compute a hypothesis with small 0-1 error. Our main result is the first computational hardness result for this learning problem. Specifically, assuming the (widely believed) subexponential-time hardness of the Learning with Errors (LWE) problem, we show that no polynomial-time Massart halfspace learner can achieve error better than $\Omega(\eta)$, even if the optimal 0-1 error is small, namely $\mathrm{OPT} = 2^{-\log^{c} (N)}$ for any universal constant $c \in (0, 1)$. Prior work had provided qualitatively similar evidence of hardness in the Statistical Query model. Our computational hardness result essentially resolves the polynomial PAC learnability of Massart halfspaces, by showing that known efficient learning algorithms for the problem are nearly best possible.
翻訳日:2022-07-29 13:06:23 公開日:2022-07-28
# サンプル圧縮比を用いたスパース行列乗算の出力構造予測

Predicting the Output Structure of Sparse Matrix Multiplication with Sampled Compression Ratio ( http://arxiv.org/abs/2207.13848v1 )

ライセンス: Link先を確認
Zhaoyang Du, Yijin Guan, Tianchan Guan, Dimin Niu, Nianxiong Tan, Xiaopeng Yu, Hongzhong Zheng, Jianyi Meng, Xiaolang Yan, Yuan Xie(参考訳) スパース一般行列乗法(SpGEMM)は、多くの科学応用において基本的な構成要素である。 SpGEMMの1つの重要なタスクは、効率的なメモリ割り当てと負荷バランスのために出力行列(すなわち出力行当たりのゼロでない要素の数)の構造を計算または予測することであり、これはSpGEMMの全体的な性能に影響を与える。 既存の作業では、出力構造を正確に計算するか、上界またはサンプリングベースの方法を採用して出力構造を予測する。 しかし、これらのメソッドは実行に多くの時間を要するか、あるいは十分に正確ではない。 本稿では,既存のサンプリングベース法と比較して精度と低コストが向上した新しいサンプリングベース法を提案する。 提案手法は,同じサンプル結果行列の中間生成物数(フロップ)と非零要素数(nnz)を利用して,まずspgemmの圧縮率を予測する。 そして、予測圧縮比で出力行毎にFLOPを分割して予測出力構造を得る。 また,提案手法の精度向上を実証するために,計算オーバーヘッドを最適化したサンプリングベース手法の参照設計を提案する。 予測精度を評価するために,種々の行列次元とスパース構造を有する625の試験ケースを構築した。 実験の結果, 提案手法と基準設計の絶対相対誤差はそれぞれ平均 1.56 % と 8.12 % であり, 最悪の場合には 25 % と 156 % であった。

Sparse general matrix multiplication (SpGEMM) is a fundamental building block in numerous scientific applications. One critical task of SpGEMM is to compute or predict the structure of the output matrix (i.e., the number of nonzero elements per output row) for efficient memory allocation and load balance, which impact the overall performance of SpGEMM. Existing work either precisely calculates the output structure or adopts upper-bound or sampling-based methods to predict the output structure. However, these methods either take much execution time or are not accurate enough. In this paper, we propose a novel sampling-based method with better accuracy and low costs compared to the existing sampling-based method. The proposed method first predicts the compression ratio of SpGEMM by leveraging the number of intermediate products (denoted as FLOP) and the number of nonzero elements (denoted as NNZ) of the same sampled result matrix. And then, the predicted output structure is obtained by dividing the FLOP per output row by the predicted compression ratio. We also propose a reference design of the existing sampling-based method with optimized computing overheads to demonstrate the better accuracy of the proposed method. We construct 625 test cases with various matrix dimensions and sparse structures to evaluate the prediction accuracy. Experimental results show that the absolute relative errors of the proposed method and the reference design are 1.56\% and 8.12\%, respectively, on average, and 25\% and 156\%, respectively, in the worst case.
翻訳日:2022-07-29 13:05:43 公開日:2022-07-28
# appleのneuralhashの近似線形性を利用した攻撃と防御

Exploiting and Defending Against the Approximate Linearity of Apple's NeuralHash ( http://arxiv.org/abs/2207.14258v1 )

ライセンス: Link先を確認
Jagdeep Singh Bhatia, Kevin Meng(参考訳) 知覚的ハッシュは同じ意味的内容の画像を同じ$n$-bitハッシュ値にマッピングし、意味的に異なるイメージを異なるハッシュにマッピングする。 これらのアルゴリズムは、著作権侵害の検出、コンテンツフィンガープリント、監視といったサイバーセキュリティにおける重要な応用を担っている。 AppleのNeuralHashは、消費者のプライバシーを損なうことなく、ユーザーのデバイスに違法コンテンツが存在することを検知するシステムである。 NeuralHashがほぼ直線的であるという驚くべき発見は、新たなブラックボックス攻撃を誘発する。 (i)「違法」な画像の検出を避けること。 (ii)ニアコリシオンを発生させ、 (iii)ハッシュ画像に関する情報をリークし、すべてモデルパラメータにアクセスできない。 これらの脆弱性はNeuralHashのセキュリティ目標に対して深刻な脅威となる。

Perceptual hashes map images with identical semantic content to the same $n$-bit hash value, while mapping semantically-different images to different hashes. These algorithms carry important applications in cybersecurity such as copyright infringement detection, content fingerprinting, and surveillance. Apple's NeuralHash is one such system that aims to detect the presence of illegal content on users' devices without compromising consumer privacy. We make the surprising discovery that NeuralHash is approximately linear, which inspires the development of novel black-box attacks that can (i) evade detection of "illegal" images, (ii) generate near-collisions, and (iii) leak information about hashed images, all without access to model parameters. These vulnerabilities pose serious threats to NeuralHash's security goals; to address them, we propose a simple fix using classical cryptographic standards.
翻訳日:2022-07-29 13:04:44 公開日:2022-07-28
# EEG2Mel: 音楽に対する脳反応から音を再構築する

EEG2Mel: Reconstructing Sound from Brain Responses to Music ( http://arxiv.org/abs/2207.13845v1 )

ライセンス: Link先を確認
Adolfo G. Ramirez-Aristizabal, Chris Kello(参考訳) 聴覚および視覚刺激に対する脳の反応からの情報検索は、脳波信号記録中に被験者に提示される曲名と画像クラスを分類することで成功を収めている。 聴覚刺激を再構成する形態による情報検索も成功しているが,音楽刺激を独立して認識・識別できるほど十分に再構成することで,従来の方法の改善が図られている。 さらに,脳波記録の1秒毎の時間系列音楽刺激スペクトルに基づいてディープラーニングモデルを学習し,先行研究に比べて特徴抽出ステップを大幅に削減した。 NMED-TempoとNMED-Hindiは、フル長の曲を受動的に聴く参加者のデータセットを使用して、畳み込みニューラルネットワーク(CNN)回帰器を訓練し、検証した。 原電圧対パワースペクトル入力と線形対メル分光図出力の有効性を検証し、全ての入力と出力を2次元画像に変換した。 再構成した分光器の品質は, メル-スペクトログラムの81%, 線形分光器の72%の精度(10%の精度)で評価された。 最後に,2つの交互一致課題において,聴取者の聴力刺激の再現を85%の成功率(50%の確率)で判別した。

Information retrieval from brain responses to auditory and visual stimuli has shown success through classification of song names and image classes presented to participants while recording EEG signals. Information retrieval in the form of reconstructing auditory stimuli has also shown some success, but here we improve on previous methods by reconstructing music stimuli well enough to be perceived and identified independently. Furthermore, deep learning models were trained on time-aligned music stimuli spectrum for each corresponding one-second window of EEG recording, which greatly reduces feature extraction steps needed when compared to prior studies. The NMED-Tempo and NMED-Hindi datasets of participants passively listening to full length songs were used to train and validate Convolutional Neural Network (CNN) regressors. The efficacy of raw voltage versus power spectrum inputs and linear versus mel spectrogram outputs were tested, and all inputs and outputs were converted into 2D images. The quality of reconstructed spectrograms was assessed by training classifiers which showed 81% accuracy for mel-spectrograms and 72% for linear spectrograms (10% chance accuracy). Lastly, reconstructions of auditory music stimuli were discriminated by listeners at an 85% success rate (50% chance) in a two-alternative match-to-sample task.
翻訳日:2022-07-29 13:03:46 公開日:2022-07-28
# 偏光画像のための分離四元行列分解

Separable Quaternion Matrix Factorization for Polarization Images ( http://arxiv.org/abs/2207.14039v1 )

ライセンス: Link先を確認
Junjun Pan and Michael K. Ng(参考訳) 偏波は横波のユニークな特徴であり、ストークスパラメータによって表される。 偏光状態の解析は、情報源に関する貴重な情報を明らかにすることができる。 本稿では,偏波信号に対する分離可能な低ランク四元数線形混合モデルを提案する。我々は,ソース因子行列の各列が偏波データ行列の列と等しいことを仮定し,対応する問題を分離可能な四元数行列分解 (sqmf) と呼ぶ。 SQMFにより分解できる行列の性質について議論する。 四元数空間の原因子行列を決定するために、逐次投影アルゴリズムにインスパイアされた四元数連続投影アルゴリズム(QSPA)と呼ばれるヒューリスティックアルゴリズムを提案する。 QSPAの有効性を保証するため、四元行列に対して新しい正規化演算子を提案する。 実数空間における非負因子活性化行列の計算にはブロック座標降下アルゴリズムを用いる。 偏光画像表現と分光偏光画像アンミックスの適用性を検証するため,本手法を検証した。

Polarization is a unique characteristic of transverse wave and is represented by Stokes parameters. Analysis of polarization states can reveal valuable information about the sources. In this paper, we propose a separable low-rank quaternion linear mixing model to polarized signals: we assume each column of the source factor matrix equals a column of polarized data matrix and refer to the corresponding problem as separable quaternion matrix factorization (SQMF). We discuss some properties of the matrix that can be decomposed by SQMF. To determine the source factor matrix in quaternion space, we propose a heuristic algorithm called quaternion successive projection algorithm (QSPA) inspired by the successive projection algorithm. To guarantee the effectiveness of QSPA, a new normalization operator is proposed for the quaternion matrix. We use a block coordinate descent algorithm to compute nonnegative factor activation matrix in real number space. We test our method on the applications of polarization image representation and spectro-polarimetric imaging unmixing to verify its effectiveness.
翻訳日:2022-07-29 13:03:25 公開日:2022-07-28
# コンテンツ指向学習画像圧縮

Content-oriented learned image compression ( http://arxiv.org/abs/2207.14168v1 )

ライセンス: Link先を確認
Meng Li, Shangyin Gao, Yihui Feng, Yibo Shi, and Jing Wang(参考訳) 近年、ディープニューラルネットワークの発展に伴い、エンドツーエンドに最適化された画像圧縮が大幅に進歩し、レート歪み性能の点で古典的手法を上回っている。 しかし、ほとんどの学習ベースの画像圧縮手法はラベルがなく、モデルを最適化する際に画像意味論や内容を考慮していない。 実際、人間の目は異なる内容に対して異なる感性を持っているため、画像の内容も考慮する必要がある。 本稿では,様々な種類の画像コンテンツを異なる戦略で処理する,コンテンツ指向の画像圧縮手法を提案する。 実験の結果,提案手法は最先端の学習画像圧縮手法や古典的手法と比較して,競合する主観的な結果が得られることがわかった。

In recent years, with the development of deep neural networks, end-to-end optimized image compression has made significant progress and exceeded the classic methods in terms of rate-distortion performance. However, most learning-based image compression methods are unlabeled and do not consider image semantics or content when optimizing the model. In fact, human eyes have different sensitivities to different content, so the image content also needs to be considered. In this paper, we propose a content-oriented image compression method, which handles different kinds of image contents with different strategies. Extensive experiments show that the proposed method achieves competitive subjective results compared with state-of-the-art end-to-end learned image compression methods or classic methods.
翻訳日:2022-07-29 13:03:07 公開日:2022-07-28
# 学習可能なカーネルと拡張を用いた雑音下での深層学習に基づく音響モスキート検出

Deep Learning-Based Acoustic Mosquito Detection in Noisy Conditions Using Trainable Kernels and Augmentations ( http://arxiv.org/abs/2207.13843v1 )

ライセンス: Link先を確認
Devesh Khandelwal, Sean Campos, Shwetha Nagaraj, Fred Nugen, Alberto Todeschini(参考訳) 本稿では,前処理手法をディープラーニングモデルに融合することにより,音声機械学習手法の有効性を高めるためのユニークなレシピを示す。 本ソリューションは,音声信号から信頼できる蚊検出器を構築するために,費用のかかるランダム検索ではなく,トレーニングを通じてハイパーパラメータを最適化することで,トレーニングと推論のパフォーマンスを高速化する。 ここで示された実験と結果は、acm 2022チャレンジのmos c提案の一部である。 結果は未公開のテストセットにおいて,公開ベースラインを212%上回った。 これは、騒がしい環境で信頼できる蚊の検出を可能にする、堅牢なバイオ音響システムを構築するための最良の実例の1つだと考えています。

In this paper, we demonstrate a unique recipe to enhance the effectiveness of audio machine learning approaches by fusing pre-processing techniques into a deep learning model. Our solution accelerates training and inference performance by optimizing hyper-parameters through training instead of costly random searches to build a reliable mosquito detector from audio signals. The experiments and the results presented here are part of the MOS C submission of the ACM 2022 challenge. Our results outperform the published baseline by 212% on the unpublished test set. We believe that this is one of the best real-world examples of building a robust bio-acoustic system that provides reliable mosquito detection in noisy conditions.
翻訳日:2022-07-29 13:02:21 公開日:2022-07-28
# p-進統計場理論と深層信念ネットワーク

p-Adic Statistical Field Theory and Deep Belief Networks ( http://arxiv.org/abs/2207.13877v1 )

ライセンス: Link先を確認
W. A. Z\'u\~niga-Galindo(参考訳) 本研究では,$p$-adic 統計場理論 (sfts) とニューラルネットワーク (nns) の対応についての研究を開始する。 p$-進時空上の一般量子場理論では、厳密な方法で定式化することができる。 今日では、これらの理論は、真の理論の問題を理解するための数学的なおもちゃのモデルであると考えられている。 本研究では、これらの理論が深信ネットワーク(DBN)と深く結びついていることを示す。 Hintonらはいくつかの制限されたボルツマンマシン(RBM)を積み重ねてDBNを構築した。 この構築の目的は、階層構造(ディープラーニングアーキテクチャ)を持つネットワークを得ることである。 RBMは特定のスピングラスに対応するので、DBNは超測度(階層)スピングラスに対応するべきである。 このようなシステムのモデルは$p$-進数を使って簡単に構成できる。 このアプローチでは、$p$進 SFT は$p$進連続 DBN に対応し、この理論の離散化は$p$進離散 DBN に対応する。 これらの最後の機械は普遍近似器であることを示す。 p$-adicフレームワークでは、SFTとNNの対応が完全には開発されていない。 我々はいくつかのオープンな問題を指摘した。

In this work we initiate the study of the correspondence between $p$-adic statistical field theories (SFTs) and neural networks (NNs). In general quantum field theories over a $p$-adic spacetime can be formulated in a rigorous way. Nowadays these theories are considered just mathematical toy models for understanding the problems of the true theories. In this work we show these theories are deeply connected with the deep belief networks (DBNs). Hinton et al. constructed DBNs by stacking several restricted Boltzmann machines (RBMs). The purpose of this construction is to obtain a network with a hierarchical structure (a deep learning architecture). An RBM corresponds a certain spin glass, thus a DBN should correspond to an ultrametric (hierarchical) spin glass. A model of such system can be easily constructed by using $p$-adic numbers. In our approach, a $p$-adic SFT corresponds to a $p$-adic continuous DBN, and a discretization of this theory corresponds to a $p$-adic discrete DBN. We show that these last machines are universal approximators. In the $p$-adic framework, the correspondence between SFTs and NNs is not fully developed. We point out several open problems.
翻訳日:2022-07-29 13:02:09 公開日:2022-07-28
# 小惑星共鳴画像の同定に応用した人工ニューラルネットワークモデルの最適化

Optimization of Artificial Neural Networks models applied to the identification of images of asteroids' resonant arguments ( http://arxiv.org/abs/2207.14181v1 )

ライセンス: Link先を確認
Valerio Carruba, Safwan Aljbaae, Gabriel Carit\'a, Rita Cassia Domingos, Bruno Martins(参考訳) 小惑星のメインベルトは平均運動と世俗共鳴の網で交差しており、小惑星の基本周波数と惑星の間に可測性があるときに発生する。 伝統的に、これらの天体は、小惑星の軌道要素と摂動する惑星の組み合わせである共鳴論の時間発展を視覚的に観察することによって同定された。 これらの共鳴によって影響を受ける小惑星の人口は、場合によっては数千のオーダーのものであるため、これは人間の観察者の課税課題となっている。 近年の研究では、畳み込みニューラルネットワーク(CNN)モデルを使用して、そのようなタスクを自動的に実行している。 本稿では,VGG,Inception,ResNetなど,最も先進的で一般公開されているCNNアーキテクチャの成果と比較する。 このようなモデルのパフォーマンスは、最初にテストされ、検証セットとデータ拡張、ドロップアウト、バッチ正規化のような一連の正規化技術を使用して、問題オーバーフィットのために最適化される。 3つの最高のパフォーマンスモデルを使用して、数千の画像を含む大規模なテストデータベースのラベルを予測する。 VGGモデルは、正規化と非正規化により、大規模なデータセットのラベルを予測する最も効率的な方法であることが判明した。 バーラ・C・ルービン天文台は、今後数年で400万個の新小惑星が発見される可能性が高いため、これらのモデルを使用することで、共鳴小天体の個体数を特定できる可能性がある。

The asteroidal main belt is crossed by a web of mean-motion and secular resonances, that occur when there is a commensurability between fundamental frequencies of the asteroids and planets. Traditionally, these objects were identified by visual inspection of the time evolution of their resonant argument, which is a combination of orbital elements of the asteroid and the perturbing planet(s). Since the population of asteroids affected by these resonances is, in some cases, of the order of several thousand, this has become a taxing task for a human observer. Recent works used Convolutional Neural Networks (CNN) models to perform such task automatically. In this work, we compare the outcome of such models with those of some of the most advanced and publicly available CNN architectures, like the VGG, Inception and ResNet. The performance of such models is first tested and optimized for overfitting issues, using validation sets and a series of regularization techniques like data augmentation, dropout, and batch normalization. The three best-performing models were then used to predict the labels of larger testing databases containing thousands of images. The VGG model, with and without regularizations, proved to be the most efficient method to predict labels of large datasets. Since the Vera C. Rubin observatory is likely to discover up to four million new asteroids in the next few years, the use of these models might become quite valuable to identify populations of resonant minor bodies.
翻訳日:2022-07-29 13:01:50 公開日:2022-07-28
# 異なる情報源からのデータ統合に基づく健康遠隔監視プラットフォーム

A health telemonitoring platform based on data integration from different sources ( http://arxiv.org/abs/2207.13913v1 )

ライセンス: Link先を確認
Gianluigi Ciocca, Paolo Napoletano, Matteo Romanato, Raimondo Schettini(参考訳) 長期または慢性疾患の人々の管理は、国家の健康システムにとって最大の課題の1つである。 実際、これらの病気は、特に高齢者が入院する主な原因の1つであり、それを監視するのに必要な膨大なリソースが医療システムの持続性に問題を引き起こす。 携帯機器の普及と新たな接続技術により、医療提供者に支援を提供し、病院や診療所の負担を軽減できる遠隔監視システムの実装が可能になる。 本稿では,医療用遠隔監視プラットフォームの実装について紹介する。このプラットフォームは,モバイル機器やカスタム機器のさまざまな種類の生理的健康パラメータをキャプチャするように設計されている。 消費者向け医療機器は、何百ものデバイスをサポートするGoogle Fitエコシステムを介してプラットフォームに統合でき、カスタムデバイスは標準の通信プロトコルでプラットフォームと直接対話することができる。 このプラットフォームは、機械学習アルゴリズムを使って取得したデータを処理し、患者や医師に生理的健康パラメーターをユーザーフレンドリで総合的で理解しやすいダッシュボードで提供するように設計されている。 予備的なユーザビリティテストは、機能性と有用性の観点から、優れたユーザ満足度を示す。

The management of people with long-term or chronic illness is one of the biggest challenges for national health systems. In fact, these diseases are among the leading causes of hospitalization, especially for the elderly, and huge amount of resources required to monitor them leads to problems with sustainability of the healthcare systems. The increasing diffusion of portable devices and new connectivity technologies allows the implementation of telemonitoring system capable of providing support to health care providers and lighten the burden on hospitals and clinics. In this paper, we present the implementation of a telemonitoring platform for healthcare, designed to capture several types of physiological health parameters from different consumer mobile and custom devices. Consumer medical devices can be integrated into the platform via the Google Fit ecosystem that supports hundreds of devices, while custom devices can directly interact with the platform with standard communication protocols. The platform is designed to process the acquired data using machine learning algorithms, and to provide patients and physicians the physiological health parameters with a user-friendly, comprehensive, and easy to understand dashboard which monitors the parameters through time. Preliminary usability tests show a good user satisfaction in terms of functionality and usefulness.
翻訳日:2022-07-29 12:58:43 公開日:2022-07-28
# 回折トモグラフィのための物理インフォームニューラルネットワーク

Physics-informed neural networks for diffraction tomography ( http://arxiv.org/abs/2207.14230v1 )

ライセンス: Link先を確認
Amirhossein Saba, Carlo Gigli, Ahmed B. Ayoub, and Demetri Psaltis(参考訳) 生体試料のトモグラフィー再構成のためのフォワードモデルとして物理インフォームドニューラルネットワークを提案する。 ヘルムホルツ方程式を物理的損失としてこのネットワークを訓練することで、散乱場を正確に予測できることを実証する。 事前学習されたネットワークは、異なるサンプルに対して微調整が可能であり、他の数値解よりも高速に散乱問題を解くために使用される。 本手法を数値および実験結果を用いて評価する。 我々の物理インフォームドニューラルネットワークは、任意の前方および逆散乱問題に対して一般化することができる。

We propose a physics-informed neural network as the forward model for tomographic reconstructions of biological samples. We demonstrate that by training this network with the Helmholtz equation as a physical loss, we can predict the scattered field accurately. It will be shown that a pretrained network can be fine-tuned for different samples and used for solving the scattering problem much faster than other numerical solutions. We evaluate our methodology with numerical and experimental results. Our physics-informed neural networks can be generalized for any forward and inverse scattering problem.
翻訳日:2022-07-29 12:58:25 公開日:2022-07-28
# コントラスト学習によるコンテンツベース音楽レコメンデーションにおける否定的選好の活用

Exploiting Negative Preference in Content-based Music Recommendation with Contrastive Learning ( http://arxiv.org/abs/2207.13909v1 )

ライセンス: Link先を確認
Minju Park, Kyogu Lee(参考訳) 高度な音楽レコメンデーションシステムは、機械学習の開発とともに導入されている。 しかし,モデルの複雑さではなく,ユーザの好みを理解することでユーザの満足度を高める音楽レコメンデーションシステムを設計することが不可欠である。 音楽レコメンデーションシステムに関するいくつかの研究は、ネガティブな嗜好を生かし、パフォーマンスの改善を示したが、どのようにしてより良いレコメンデーションに繋がったかについては説明がつかなかった。 本研究は,音楽推薦モデルとコントラスト学習による選好(CLEP)を比較し,ユーザの音楽嗜好における負の選好の役割を,正と負の両方の選好(CLEP-PN),正のみ(CLEP-P)と負のみ(CLEP-N)の3つの異なる学習戦略を用いて分析する。 調査により得られた個人化データの少ないデータで各システムの有効性を検証し,音楽レコメンデーションにおけるネガティブな嗜好の活用の可能性を明らかにする。 実験の結果,CLEP-Nは他の2つよりも精度が高く,偽陽性率が高いことがわかった。 さらに,提案手法の安定性を実証するために,前端特徴抽出器の種類によらず,学習戦略が一貫した傾向を示した。

Advanced music recommendation systems are being introduced along with the development of machine learning. However, it is essential to design a music recommendation system that can increase user satisfaction by understanding users' music tastes, not by the complexity of models. Although several studies related to music recommendation systems exploiting negative preferences have shown performance improvements, there was a lack of explanation on how they led to better recommendations. In this work, we analyze the role of negative preference in users' music tastes by comparing music recommendation models with contrastive learning exploiting preference (CLEP) but with three different training strategies - exploiting preferences of both positive and negative (CLEP-PN), positive only (CLEP-P), and negative only (CLEP-N). We evaluate the effectiveness of the negative preference by validating each system with a small amount of personalized data obtained via survey and further illuminate the possibility of exploiting negative preference in music recommendations. Our experimental results show that CLEP-N outperforms the other two in accuracy and false positive rate. Furthermore, the proposed training strategies produced a consistent tendency regardless of different types of front-end musical feature extractors, proving the stability of the proposed method.
翻訳日:2022-07-29 12:57:14 公開日:2022-07-28
# ナノ粒子の微細構造とサイズによる自動分類

Automated Classification of Nanoparticles with Various Ultrastructures and Sizes ( http://arxiv.org/abs/2207.14023v1 )

ライセンス: Link先を確認
Claudius Zelenka, Marius Kamp, Kolja Strohm, Akram Kadoura, Jacob Johny, Reinhard Koch, Lorenz Kienle(参考訳) ナノ粒子のサイズ、形態、構造を正確に測定することは、多くの用途でその特性に強く依存するため、非常に重要である。 本稿では,走査型電子顕微鏡画像の小さなデータ集合から学習したナノ粒子の測定と分類のための深層学習法を提案する。 私たちのアプローチは、局在化、すなわちナノ粒子の検出、分類、すなわち超微細構造の分類の2段階からなる。 各ステージでは、異なる最先端ニューラルネットワークの分析により、セグメンテーションと分類を最適化する。 画像処理や様々な画像生成ニューラルネットワークを用いて合成画像を生成することで、両方の段階で結果を改善することができることを示す。 最後に、バイメタルナノ粒子へのアルゴリズムの適用により、複雑な超微細構造の分類を含むサイズ分布の自動データ収集が示される。 開発した方法は、他の材料システムやナノ粒子構造に容易に移行できる。

Accurately measuring the size, morphology, and structure of nanoparticles is very important, because they are strongly dependent on their properties for many applications. In this paper, we present a deep-learning based method for nanoparticle measurement and classification trained from a small data set of scanning transmission electron microscopy images. Our approach is comprised of two stages: localization, i.e., detection of nanoparticles, and classification, i.e., categorization of their ultrastructure. For each stage, we optimize the segmentation and classification by analysis of the different state-of-the-art neural networks. We show how the generation of synthetic images, either using image processing or using various image generation neural networks, can be used to improve the results in both stages. Finally, the application of the algorithm to bimetallic nanoparticles demonstrates the automated data collection of size distributions including classification of complex ultrastructures. The developed method can be easily transferred to other material systems and nanoparticle structures.
翻訳日:2022-07-29 12:56:46 公開日:2022-07-28
# ランダム森林分類器を用いた多孔質多相材料のFIB/SEMトモグラフィー画像の分類

Classification of FIB/SEM-tomography images for highly porous multiphase materials using random forest classifiers ( http://arxiv.org/abs/2207.14114v1 )

ライセンス: Link先を確認
Markus Osenberg, Andr\'e Hilger, Matthias Neumann, Amalia Wagner, Nicole Bohn, Joachim R. Binder, Volker Schmidt, John Banhart, Ingo Manke(参考訳) FIB/SEMトモグラフィーは、電池研究やその他の多くの分野における三次元ナノ構造のキャラクタリゼーションに欠かせないツールである。 しかし、多くのケースではコントラストと3D分類/再構成の問題が発生しており、電池や燃料電池の電極材料に使用されるような多孔質材料に対する技術の適用性を強く制限している。 活性Li貯蔵粒子や炭素/バインダー材料などの異なる成分の識別は困難であり、画像データの信頼性の高い定量分析を妨げたり、構造と不適切な関係に関する誤った結論に至ることもある。 本研究では,FIB/SEMトモグラフィーにより得られた3次元画像データの新しい分類法とそのNMC電池電極材料への応用について述べる。 2つの異なる画像信号、すなわち、アングル化されたse2チャンバー検出器の信号と、インレンズ検出器信号を組み合わせてランダムフォレスト、すなわち特定の機械学習アルゴリズムを訓練する。 本手法は,多相計測に適した既存の手法の限界を克服し,現在の技術が失敗しても定量的なデータ再構成を可能にすること,大規模トレーニングセットの要求を克服できることを実証する。 FIB/SEMトモグラフィーを用いた今後の研究の指針となる。

FIB/SEM tomography represents an indispensable tool for the characterization of three-dimensional nanostructures in battery research and many other fields. However, contrast and 3D classification/reconstruction problems occur in many cases, which strongly limits the applicability of the technique especially on porous materials, like those used for electrode materials in batteries or fuel cells. Distinguishing the different components like active Li storage particles and carbon/binder materials is difficult and often prevents a reliable quantitative analysis of image data, or may even lead to wrong conclusions about structure-property relationships. In this contribution, we present a novel approach for data classification in three-dimensional image data obtained by FIB/SEM tomography and its applications to NMC battery electrode materials. We use two different image signals, namely the signal of the angled SE2 chamber detector and the Inlens detector signal, combine both signals and train a random forest, i.e. a particular machine learning algorithm. We demonstrate that this approach can overcome current limitations of existing techniques suitable for multi-phase measurements and that it allows for quantitative data reconstruction even where current state-of the art techniques fail, or demand for large training sets. This approach may yield as guideline for future research using FIB/SEM tomography.
翻訳日:2022-07-29 12:56:35 公開日:2022-07-28
# 目立たないアトラクタの学習

Learning unseen coexisting attractors ( http://arxiv.org/abs/2207.14133v1 )

ライセンス: Link先を確認
Daniel J. Gauthier, Ingo Fischer, Andr\'e R\"ohm(参考訳) 貯留層コンピューティングは、動的システムのサロゲートモデルを生成する機械学習アプローチである。 トレーニング可能なパラメータが少ないため、競合するアプローチよりもトレーニングデータセットが小さいため、基礎となる力学系を学習することができる。 近年、次世代貯水池コンピューティングとして知られる単純な定式化が、多くのアルゴリズムのメタパラメータを除去し、性能の良い従来の貯水池コンピュータを特定し、さらに訓練を簡素化している。 本稿では,異なる時間スケールと共存する複数の動的状態(トラクタ)を持つ力学系を学習する上で,特に難しい課題について検討する。 地中構造と予測誘引器の幾何を定量化する指標を用いて,次世代の貯水池コンピュータと従来の貯水池コンピュータを比較した。 研究した4次元システムでは、次世代の貯水池計算手法では、トレーニングデータに$\sim 1.7 \times$を、より短い ‘warm up' 時間に$10^3 \times$を要し、メタパラメータを少なくし、従来の貯水池コンピュータと比較して共存するアトラクタ特性を予測するのに$\sim 100\times$を高い精度で使用する。 さらに,アトラクションの流域を高精度に予測できることを実証した。 この研究は、動的システムのためのこの新しい機械学習アルゴリズムの優れた学習能力をさらに支援する。

Reservoir computing is a machine learning approach that can generate a surrogate model of a dynamical system. It can learn the underlying dynamical system using fewer trainable parameters and hence smaller training data sets than competing approaches. Recently, a simpler formulation, known as next-generation reservoir computing, removes many algorithm metaparameters and identifies a well-performing traditional reservoir computer, thus simplifying training even further. Here, we study a particularly challenging problem of learning a dynamical system that has both disparate time scales and multiple co-existing dynamical states (attractors). We compare the next-generation and traditional reservoir computer using metrics quantifying the geometry of the ground-truth and forecasted attractors. For the studied four-dimensional system, the next-generation reservoir computing approach uses $\sim 1.7 \times$ less training data, requires $10^3 \times$ shorter `warm up' time, has fewer metaparameters, and has an $\sim 100\times$ higher accuracy in predicting the co-existing attractor characteristics in comparison to a traditional reservoir computer. Furthermore, we demonstrate that it predicts the basin of attraction with high accuracy. This work lends further support to the superior learning ability of this new machine learning algorithm for dynamical systems.
翻訳日:2022-07-29 12:56:13 公開日:2022-07-28
# 脳腫瘍分節のためのトランスフォーマベース生成逆ネットワーク

A Transformer-based Generative Adversarial Network for Brain Tumor Segmentation ( http://arxiv.org/abs/2207.14134v1 )

ライセンス: Link先を確認
Liqun Huang (1), Long Chen (1), Baihai Zhang (1), Senchun Chai (1) ((1) School of Automation, Beijing Institute of Technology, China)(参考訳) 脳腫瘍のセグメンテーションは、医療画像セグメンテーションにおける課題である。 様々なコンピュータビジョンタスクにおけるトランスフォーマーの適用により、トランスフォーマーブロックは、cnnと相補的なグローバル空間における長距離依存を学習する能力を示す。 本稿では,脳腫瘍をマルチモーダル性MRIで自動分割するトランスフォーマーを用いた生成対向ネットワークを提案する。 我々のアーキテクチャは、min-maxゲーム進行のトレーニングを行うジェネレータと識別器で構成されている。 ジェネレータは典型的なU字型エンコーダ・デコーダアーキテクチャに基づいており、底層はresnetでトランスフォーマーブロックで構成されている。 さらに、発電機は深い監視技術で訓練されている。 私たちが設計した識別器はCNNベースのネットワークであり、医療意味画像のセグメンテーションに有効であることが証明された。 本手法の有効性を検証するため,brats2015データセットを用いた実験を行い,従来の最先端手法と同等以上の性能を得た。

Brain tumor segmentation remains a challenge in medical image segmentation tasks. With the application of transformer in various computer vision tasks, transformer blocks show the capability of learning long-distance dependency in global space, which is complementary with CNNs. In this paper, we proposed a novel transformer-based generative adversarial network to automatically segment brain tumors with multi-modalities MRI. Our architecture consists of a generator and a discriminator, which are trained in min-max game progress. The generator is based on a typical "U-shaped" encoder-decoder architecture, whose bottom layer is composed of transformer blocks with resnet. Besides, the generator is trained with deep supervision technology. The discriminator we designed is a CNN-based network with multi-scale $L_{1}$ loss, which is proved to be effective for medical semantic image segmentation. To validate the effectiveness of our method, we conducted experiments on BRATS2015 dataset, achieving comparable or better performance than previous state-of-the-art methods.
翻訳日:2022-07-29 12:55:47 公開日:2022-07-28
# DoRO:エンボディエージェントの参照オブジェクトの曖昧化

DoRO: Disambiguation of referred object for embodied agents ( http://arxiv.org/abs/2207.14205v1 )

ライセンス: Link先を確認
Pradip Pramanick, Chayan Sarkar, Sayan Paul, Ruddra dev Roychoudhury, Brojeshwar Bhowmick(参考訳) ロボットのタスク命令は、しばしば、ロボットが環境中(地上)に配置しなければならない参照対象を含む。 タスク意図の理解は自然言語理解の不可欠な部分であるが、タスクを基礎にしながら生じる曖昧さを解決する努力は少ない。 既存の作業では、固定ビューと静的ロボットに適した視覚ベースのタスクグラウンドとあいまいさ検出を使用する。 しかし、理想の視点が事前に分かっていない移動ロボットの場合、この問題は拡大する。 さらに、単一のビューが与えられた領域のすべてのオブジェクトインスタンスを見つけるのに十分でない場合もあり、不正確な曖昧性検出につながる。 人間の介入は、ロボットが直面しているあいまいさを伝達できる場合にのみ役立つ。 本稿では,インボディードエージェントが必要に応じて適切なクエリを発行することで,参照対象の曖昧化を支援するシステムであるDoRO(Disambiguation of Referred Object)を提案する。 対象物がどこにあるかを考えると、DoROは対象物のすべてのインスタンスを複数のビューから集約し、その領域を探索および走査する。 すると、接地されたオブジェクトインスタンスから情報を使って適切なクエリを上げる。 AI2Thorシミュレータで行った実験によると、DoROはあいまいさをより正確に検出するだけでなく、視覚的な接地からより正確な情報で冗長なクエリを発生させる。

Robotic task instructions often involve a referred object that the robot must locate (ground) within the environment. While task intent understanding is an essential part of natural language understanding, less effort is made to resolve ambiguity that may arise while grounding the task. Existing works use vision-based task grounding and ambiguity detection, suitable for a fixed view and a static robot. However, the problem magnifies for a mobile robot, where the ideal view is not known beforehand. Moreover, a single view may not be sufficient to locate all the object instances in the given area, which leads to inaccurate ambiguity detection. Human intervention is helpful only if the robot can convey the kind of ambiguity it is facing. In this article, we present DoRO (Disambiguation of Referred Object), a system that can help an embodied agent to disambiguate the referred object by raising a suitable query whenever required. Given an area where the intended object is, DoRO finds all the instances of the object by aggregating observations from multiple views while exploring & scanning the area. It then raises a suitable query using the information from the grounded object instances. Experiments conducted with the AI2Thor simulator show that DoRO not only detects the ambiguity more accurately but also raises verbose queries with more accurate information from the visual-language grounding.
翻訳日:2022-07-29 12:52:30 公開日:2022-07-28
# 非白色励起を伴うストリーミンググラフ信号の混合モデルのオンライン推論

Online Inference for Mixture Model of Streaming Graph Signals with Non-White Excitation ( http://arxiv.org/abs/2207.14019v1 )

ライセンス: Link先を確認
Yiran He, Hoi-To Wai(参考訳) 本稿では,ノードの集中度とグラフ信号の関連付けを同時に行うためのマルチグラフ推論とクラスタリングの問題について考察する。 フィルタ付き低域通過グラフ信号と非白・低域励起の混合モデルについて検討した。 混合モデルは実践的なシナリオから動機づけられるが,従来のグラフ学習手法には大きな課題がある。 修正として,グラフのノード中心性に着目した推論問題を考える。 低域信号特性から導出される独自の低ランクプラススパースを持つ予測最大化(EM)アルゴリズムを設計する。 ストリーミングデータから推定するオンラインemアルゴリズムを提案する。 例えば、異常グラフから信号が生成されるかどうかを検出するために、オンラインアルゴリズムを拡張します。 提案アルゴリズムは最大後続問題(MAP)の定常点に収束することを示す。 数値実験が我々の分析を支えている。

This paper considers a joint multi-graph inference and clustering problem for simultaneous inference of node centrality and association of graph signals with their graphs. We study a mixture model of filtered low pass graph signals with possibly non-white and low-rank excitation. While the mixture model is motivated from practical scenarios, it presents significant challenges to prior graph learning methods. As a remedy, we consider an inference problem focusing on the node centrality of graphs. We design an expectation-maximization (EM) algorithm with a unique low-rank plus sparse prior derived from low pass signal property. We propose a novel online EM algorithm for inference from streaming data. As an example, we extend the online algorithm to detect if the signals are generated from an abnormal graph. We show that the proposed algorithms converge to a stationary point of the maximum-a-posterior (MAP) problem. Numerical experiments support our analysis.
翻訳日:2022-07-29 12:52:06 公開日:2022-07-28
# 血管対応最適化を用いた蛍光X線系列からの冠動脈の抽出

Extraction of Coronary Vessels in Fluoroscopic X-Ray Sequences Using Vessel Correspondence Optimization ( http://arxiv.org/abs/2207.13837v1 )

ライセンス: Link先を確認
Seung Yeon Shin, Soochahn Lee, Kyoung Jin Noh, Il Dong Yun, and Kyoung Mu Lee(参考訳) 蛍光X線画像から冠状血管を抽出する方法を提案する。 ソースフレームの容器構造が与えられると、後続フレームの容器対応候補は、新しい階層的探索スキームによって生成され、開口問題を克服する。 最適対応はマルコフ確率場最適化フレームワーク内で決定される。 コントラスト剤の流入により新たに見える容器枝を抽出するために後処理を行う。 18のシーケンスからなるデータセット上での定量的・定性評価は,提案手法の有効性を示す。

We present a method to extract coronary vessels from fluoroscopic x-ray sequences. Given the vessel structure for the source frame, vessel correspondence candidates in the subsequent frame are generated by a novel hierarchical search scheme to overcome the aperture problem. Optimal correspondences are determined within a Markov random field optimization framework. Post-processing is performed to extract vessel branches newly visible due to the inflow of contrast agent. Quantitative and qualitative evaluation conducted on a dataset of 18 sequences demonstrates the effectiveness of the proposed method.
翻訳日:2022-07-29 12:51:54 公開日:2022-07-28
# 生成ステガノグラフィーネットワーク

Generative Steganography Network ( http://arxiv.org/abs/2207.13867v1 )

ライセンス: Link先を確認
Ping Wei, Sheng Li, Xinpeng Zhang, Ge Luo, Zhenxing Qian, Qing Zhou(参考訳) ステガノグラフィは通常、秘密データを埋め込むためにカバーメディアを変更する。 遺伝性ステガノグラフィー(generative steganography, gs)と呼ばれる新しいステガノグラフィー手法が最近登場し、秘密データ(秘密データを含む画像)を直接カバーメディアなしで生成する。 しかし、既存のgsスキームはパフォーマンスが悪いとしてしばしば批判される。 そこで,本稿では,カバー画像を用いずに現実的なステゴ画像を生成するための高度な生成ステガノグラフィーネットワーク(gsn)を提案する。 私たちのモデルは4つのサブネットワーク、すなわちイメージジェネレータ(g$)、判別器(d$)、ステガナライザー(s$)、データ抽出器(e$)を含んでいる。 d$ と $s$ は、生成したステゴ画像の視覚的および統計的不可避性を保証するために、2つの敵の判別者として振る舞う。 $E$は生成されたステゴ画像から隠された秘密を抽出する。 ジェネレータ$G$は、異なる入力でカバーまたはステゴイメージを合成するように柔軟に構成されている。 通常の画像生成装置にステゴ画像を生成する機能を隠蔽することにより、隠蔽通信を容易にする。 秘密ブロックと呼ばれるモジュールは、画像生成中に特徴マップ内の秘密データを隠蔽するように微妙に設計され、高い隠蔽能力と画像忠実性が達成される。 また,ステグアナリシス検出に抵抗する新しい階層的勾配減衰技術を開発した。 実験は、既存の方法よりも作業が優れていることを示す。

Steganography usually modifies cover media to embed secret data. A new steganographic approach called generative steganography (GS) has emerged recently, in which stego images (images containing secret data) are generated from secret data directly without cover media. However, existing GS schemes are often criticized for their poor performances. In this paper, we propose an advanced generative steganography network (GSN) that can generate realistic stego images without using cover images, in which mutual information is firstly introduced in stego image generation. Our model contains four sub-networks, i.e., an image generator ($G$), a discriminator ($D$), a steganalyzer ($S$), and a data extractor ($E$). $D$ and $S$ act as two adversarial discriminators to ensure the visual and statistical imperceptibility of generated stego images. $E$ is to extract the hidden secret from generated stego images. The generator $G$ is flexibly constructed to synthesize either cover or stego images with different inputs. It facilitates covert communication by hiding the function of generating stego images in a normal image generator. A module named secret block is designed delicately to conceal secret data in the feature maps during image generation, with which high hiding capacity and image fidelity are achieved. In addition, a novel hierarchical gradient decay skill is developed to resist steganalysis detection. Experiments demonstrate the superiority of our work over existing methods.
翻訳日:2022-07-29 12:51:47 公開日:2022-07-28
# ニューラルネットワークにおける衣服衝突ハンドリングのための反発力ユニット

A Repulsive Force Unit for Garment Collision Handling in Neural Networks ( http://arxiv.org/abs/2207.13871v1 )

ライセンス: Link先を確認
Qingyang Tan, Yi Zhou, Tuanfeng Wang, Duygu Ceylan, Xin Sun, Dinesh Manocha(参考訳) 近年の成功にもかかわらず、深層学習に基づく身体運動下での3d衣服変形の予測手法は、衣服と身体の間の相互侵入問題に苦しむ。 この問題に対処するため,我々はrepulsive force unit (refu)と呼ばれる新しい衝突処理ニューラルネットワーク層を提案する。 基礎となる身体の符号付き距離関数(SDF)と現在の衣服の頂点位置に基づいて、ReFUは、微妙な幾何学的詳細を保存しながら、相互に接続する頂点を衝突のない構成にプッシュする頂点ごとのオフセットを予測する。 ReFUはトレーニング可能なパラメータと微分可能であり、3次元の変形を予測する異なるネットワークバックボーンに統合可能であることを示す。 実験の結果,ReFUは身体と衣服の衝突回数を大幅に減らし,衝突損失や後処理の最適化に基づく従来手法と比較して幾何的細部をよく保存することがわかった。

Despite recent success, deep learning-based methods for predicting 3D garment deformation under body motion suffer from interpenetration problems between the garment and the body. To address this problem, we propose a novel collision handling neural network layer called Repulsive Force Unit (ReFU). Based on the signed distance function (SDF) of the underlying body and the current garment vertex positions, ReFU predicts the per-vertex offsets that push any interpenetrating vertex to a collision-free configuration while preserving the fine geometric details. We show that ReFU is differentiable with trainable parameters and can be integrated into different network backbones that predict 3D garment deformations. Our experiments show that ReFU significantly reduces the number of collisions between the body and the garment and better preserves geometric details compared to prior methods based on collision loss or post-processing optimization.
翻訳日:2022-07-29 12:51:20 公開日:2022-07-28
# 低解像度網膜画像から高分解能容器を分割するsupervessel

SuperVessel: Segmenting High-resolution Vessel from Low-resolution Retinal Image ( http://arxiv.org/abs/2207.13882v1 )

ライセンス: Link先を確認
Yan Hu and Zhongxi Qiu and Dan Zeng and Li Jiang and Chen Lin and Jiang Liu(参考訳) 血管分割は画像から血管を抽出し、眼科疾患などの様々な疾患の診断の基盤となる。 眼科医は分析のために高分解能のセグメンテーション結果を必要とすることが多く、既存の手法で超計算負荷が発生する。 低解像度の入力に基づいていれば、小さな容器を無視したり、セグメント化された容器の不連続を引き起こしたりする。 これらの問題を解決するために,低分解能画像を入力として高分解能かつ高精度な血管分割を行うSuperVesselアルゴリズムを提案する。 私たちはまず、テストフェーズで削除可能な高解像度の詳細機能を提供するために、補助ブランチとして超分解能を取ります。 第2に,機能分解(ufd)モジュールのアップサンプリングと,機能操作モジュール(fim)の制約損失を伴い,関心のある機能に焦点を当てた,興味のあるセグメンテーション領域の機能を強化する2つのモジュールを提案する。 3つのデータセットを広範囲に実験した結果,提案するsupervesselは,他の最先端アルゴリズムと比較して,より高精度なセグメンテーションiouでより小さな容器をセグメント化できることが証明された。 さらに、SuperVesselの安定性は他のアルゴリズムよりも強い。 論文が公開された後、コードを公開します。

Vascular segmentation extracts blood vessels from images and serves as the basis for diagnosing various diseases, like ophthalmic diseases. Ophthalmologists often require high-resolution segmentation results for analysis, which leads to super-computational load by most existing methods. If based on low-resolution input, they easily ignore tiny vessels or cause discontinuity of segmented vessels. To solve these problems, the paper proposes an algorithm named SuperVessel, which gives out high-resolution and accurate vessel segmentation using low-resolution images as input. We first take super-resolution as our auxiliary branch to provide potential high-resolution detail features, which can be deleted in the test phase. Secondly, we propose two modules to enhance the features of the interested segmentation region, including an upsampling with feature decomposition (UFD) module and a feature interaction module (FIM) with a constraining loss to focus on the interested features. Extensive experiments on three publicly available datasets demonstrate that our proposed SuperVessel can segment more tiny vessels with higher segmentation accuracy IoU over 6%, compared with other state-of-the-art algorithms. Besides, the stability of SuperVessel is also stronger than other algorithms. We will release the code after the paper is published.
翻訳日:2022-07-29 12:51:05 公開日:2022-07-28
# レーンマーキングを用いた地理参照のためのロバストなセルフチューニングデータアソシエーション

Robust Self-Tuning Data Association for Geo-Referencing Using Lane Markings ( http://arxiv.org/abs/2207.14042v1 )

ライセンス: Link先を確認
Miguel \'Angel Mu\~noz-Ba\~n\'on, Jan-Hendrik Pauls, Haohao Hu, Christoph Stiller, Francisco A. Candelas, and Fernando Torres(参考訳) 航空画像に基づく地図のローカライゼーションは、グローバルな一貫性、ジオリファレンスマップ、パブリックアクセス可能なデータなど、多くの利点がある。 しかし、空中画像と搭載センサーの両方から観測できるランドマークは限られている。 これはデータアソシエーションにおける曖昧さやエイリアスにつながる。 本稿では,高情報化表現(効率的なデータアソシエーションを可能にする)に基づいて,これらの曖昧性を解決するための完全なパイプラインを提案する。 その中核は、測定のエントロピーに応じて探索領域に適応する堅牢な自己調整データアソシエーションである。 さらに、最終結果を円滑にするために、関連データの情報行列を、データ関連付けプロセスによって生成された相対変換の関数として調整する。 本研究は,ドイツのカールスルーエ市周辺の都市と農村のシナリオから,実データに対する評価を行う。 我々は,最先端の異常軽減手法と自己調整手法を比較し,特に都市外シナリオにおいて大幅に改善したことを示す。

Localization in aerial imagery-based maps offers many advantages, such as global consistency, geo-referenced maps, and the availability of publicly accessible data. However, the landmarks that can be observed from both aerial imagery and on-board sensors is limited. This leads to ambiguities or aliasing during the data association. Building upon a highly informative representation (that allows efficient data association), this paper presents a complete pipeline for resolving these ambiguities. Its core is a robust self-tuning data association that adapts the search area depending on the entropy of the measurements. Additionally, to smooth the final result, we adjust the information matrix for the associated data as a function of the relative transform produced by the data association process. We evaluate our method on real data from urban and rural scenarios around the city of Karlsruhe in Germany. We compare state-of-the-art outlier mitigation methods with our self-tuning approach, demonstrating a considerable improvement, especially for outer-urban scenarios.
翻訳日:2022-07-29 12:50:41 公開日:2022-07-28
# 物体検出誤差測定のためのIoUと人間は一致しない

Humans disagree with the IoU for measuring object detector localization error ( http://arxiv.org/abs/2207.14221v1 )

ライセンス: Link先を確認
Ombretta Strafforello, Vanathi Rajasekart, Osman S. Kayhan, Oana Inel, Jan van Gemert(参考訳) 自動物体検出器の局在特性は、通常、IoU(Intersection over Union)スコアによって評価される。 本研究では,人間は局所化の質について異なる視点を持つことを示す。 これを評価するために,70名以上の参加者を対象に調査を行った。 結果,iouスコアが全く同じ局所化誤差の場合,人間はこれらの誤差が等しいとは考えず,好みを表わす可能性がある。 我々の研究は、IoUを人間と評価する最初のものであり、IoUのスコアだけで局所化誤差を評価するだけでは不十分であることを示している。

The localization quality of automatic object detectors is typically evaluated by the Intersection over Union (IoU) score. In this work, we show that humans have a different view on localization quality. To evaluate this, we conduct a survey with more than 70 participants. Results show that for localization errors with the exact same IoU score, humans might not consider that these errors are equal, and express a preference. Our work is the first to evaluate IoU with humans and makes it clear that relying on IoU scores alone to evaluate localization errors might not be sufficient.
翻訳日:2022-07-29 12:50:23 公開日:2022-07-28
# ロバスト肺癌予知のためのLIDC-IDRIの再検討

Re-thinking and Re-labeling LIDC-IDRI for Robust Pulmonary Cancer Prediction ( http://arxiv.org/abs/2207.14238v1 )

ライセンス: Link先を確認
Hanxiao Zhang, Xiao Gu, Minghui Zhang, Weihao Yu, Liang Chen, Zhexin Wang, Feng Yao, Yun Gu and Guang-Zhong Yang(参考訳) LIDC-IDRIデータベースは肺がん予測の最も一般的なベンチマークである。 しかし、放射線科医による主観的評価により、lidcの結節は病的根拠の真理とは全く異なる悪性の注釈を持ち、訓練中にラベルの割り当てエラーとその後の監督バイアスを導入する。 LIDCデータベースは、学習に基づくがん予測のためにより客観的なラベルを必要とする。 病理検査で診断された180個の結節を含む超小型データセットに基づいて,本ベンチマークで検証されたオリジナルアノテーションバイアスの効果を緩和するために,lidcデータを再ラベルする手法を提案する。 本稿では,距離学習に基づく類似の結節検索による新しいラベルの提供が,効果的な再ラベル戦略であることを示す。 これらのリラベルされたLIDCノジュールのトレーニングによりモデル性能が向上し、不確実なノジュールが新たに追加されたときに向上する。 さらに我々は, LIDCの再ラベル付けが, 長期的解決策を提供するとともに, 肺がんの進行予測に有効な方法であることを推測した。

The LIDC-IDRI database is the most popular benchmark for lung cancer prediction. However, with subjective assessment from radiologists, nodules in LIDC may have entirely different malignancy annotations from the pathological ground truth, introducing label assignment errors and subsequent supervision bias during training. The LIDC database thus requires more objective labels for learning-based cancer prediction. Based on an extra small dataset containing 180 nodules diagnosed by pathological examination, we propose to re-label LIDC data to mitigate the effect of original annotation bias verified on this robust benchmark. We demonstrate in this paper that providing new labels by similar nodule retrieval based on metric learning would be an effective re-labeling strategy. Training on these re-labeled LIDC nodules leads to improved model performance, which is enhanced when new labels of uncertain nodules are added. We further infer that re-labeling LIDC is current an expedient way for robust lung cancer prediction while building a large pathological-proven nodule database provides the long-term solution.
翻訳日:2022-07-29 12:50:13 公開日:2022-07-28
# ioutのための連合学習:概念、応用、挑戦、機会

Federated Learning for IoUT: Concepts, Applications, Challenges and Opportunities ( http://arxiv.org/abs/2207.13976v1 )

ライセンス: Link先を確認
Nancy Victor, Rajeswari. C, Mamoun Alazab, Sweta Bhattacharya, Sindri Magnusson, Praveen Kumar Reddy Maddikunta, Kadiyala Ramana, Thippa Reddy Gadekallu(参考訳) iout(internet of underwater things)は、環境モニタリングや探査、防衛アプリケーションなど幅広いアプリケーションによって、過去10年間で急速に勢いを増している。 従来のIoUTシステムは、信頼性、効率、タイムラインのニーズを満たす機械学習(ML)アプローチを使用している。 しかし、様々な研究の広範なレビューでは、ioutフレームワークにおけるデータプライバシとセキュリティの重要性が、ミッションクリティカルなアプリケーションにおいて望ましい結果を達成するための主要な要因として強調された。 フェデレートラーニング(FL)は、機械学習の最近の発展であるセキュアで分散化されたフレームワークであり、IoUTにおける従来のMLアプローチが直面する課題を達成するのに役立つ。 本稿では,IoUTにおけるFLの様々な応用,課題,オープンな課題,今後の研究展望の方向性について概説する。

Internet of Underwater Things (IoUT) have gained rapid momentum over the past decade with applications spanning from environmental monitoring and exploration, defence applications, etc. The traditional IoUT systems use machine learning (ML) approaches which cater the needs of reliability, efficiency and timeliness. However, an extensive review of the various studies conducted highlight the significance of data privacy and security in IoUT frameworks as a predominant factor in achieving desired outcomes in mission critical applications. Federated learning (FL) is a secured, decentralized framework which is a recent development in machine learning, that will help in fulfilling the challenges faced by conventional ML approaches in IoUT. This paper presents an overview of the various applications of FL in IoUT, its challenges, open issues and indicates direction of future research prospects.
翻訳日:2022-07-29 12:46:38 公開日:2022-07-28
# CEPのための教師なし周波数パターンマイニング

Unsupervised Frequent Pattern Mining for CEP ( http://arxiv.org/abs/2207.14017v1 )

ライセンス: Link先を確認
Guy Shapira, Assaf Schuster(参考訳) 複合イベント処理(complex event processing, cep)は、大規模データストリームから複雑な記述パターンを用いて効率的な知識抽出を可能にする一連の手法である。 オンラインファイナンスや医療監視,不正検出など,多数のアプリケーションがcepテクノロジを使用して,重要なアラートや潜在的な脅威,重要な通知をリアルタイムに捉える。 今日、多くの分野において、パターンは人間の専門家によって手動で定義されている。 しかし、望まれるパターンには、人間が検出しにくい複雑な関係が含まれており、多くの領域では人間の専門知識は乏しい。 本稿では,CEPパターンのマイニングを目的とした新しい強化学習手法であるREDEEMER(Reinforcement baseD cEp pattErn MinER)について述べる。 このアプローチには,多変量空間に対する新しいポリシー勾配法と,学習に必要なラベル数を最小化しつつ,CEPルール学習のための強化学習とアクティブラーニングを組み合わせる新しい方法が含まれる。 REDEEMERは、これまで利用できなかったドメインでのCEP統合を可能にすることを目的としている。 我々の知識を最大限に活用するために、REDEEMERは、事前に観察されなかった新しいCEPルールを提案する最初のシステムであり、専門家がCEPツールに必要な十分な情報を持っていない分野におけるパターン知識を高めるための最初の方法である。 多様なデータセットを用いた実験により,レディーマーはパターンマイニングに最先端の強化学習手法を駆使しながら,パターン知識を拡張できることが証明された。

Complex Event Processing (CEP) is a set of methods that allow efficient knowledge extraction from massive data streams using complex and highly descriptive patterns. Numerous applications, such as online finance, healthcare monitoring and fraud detection use CEP technologies to capture critical alerts, potential threats, or vital notifications in real time. As of today, in many fields, patterns are manually defined by human experts. However, desired patterns often contain convoluted relations that are difficult for humans to detect, and human expertise is scarce in many domains. We present REDEEMER (REinforcement baseD cEp pattErn MinER), a novel reinforcement and active learning approach aimed at mining CEP patterns that allow expansion of the knowledge extracted while reducing the human effort required. This approach includes a novel policy gradient method for vast multivariate spaces and a new way to combine reinforcement and active learning for CEP rule learning while minimizing the number of labels needed for training. REDEEMER aims to enable CEP integration in domains that could not utilize it before. To the best of our knowledge, REDEEMER is the first system that suggests new CEP rules that were not observed beforehand, and is the first method aimed for increasing pattern knowledge in fields where experts do not possess sufficient information required for CEP tools. Our experiments on diverse data-sets demonstrate that REDEEMER is able to extend pattern knowledge while outperforming several state-of-the-art reinforcement learning methods for pattern mining.
翻訳日:2022-07-29 12:46:24 公開日:2022-07-28
# スポーツ結果を予測するグラフニューラルネットワーク

Graph Neural Networks to Predict Sports Outcomes ( http://arxiv.org/abs/2207.14124v1 )

ライセンス: Link先を確認
Peter Xenopoulos, Claudio Silva(参考訳) スポーツの結果を予測することは、チーム、リーグ、ベクター、メディア、ファンにとって重要である。 選手追跡データの増加を踏まえ、スポーツ分析モデルでは、選手追跡データに基づく空間的特徴の利用が増えている。 しかし、一般的なモデリング技術はベクトル入力に依存しているため、ロケーションのようなプレイヤー固有の情報は機能として簡単には含められない。 したがって、空間的に派生した特徴は、ボールやゴールまでの距離、大域的な特徴集約、あるいはプレイヤーがゲームにおいて異なる役割を指定されるロール割り当てスキームなど、アンカーオブジェクトに関して一般的に構築される。 そうすることで、プレイヤー間の関係と地域関係を犠牲にし、グローバルな関係を優先します。 この問題に対処するために,スポーツに依存しないゲーム状態のグラフ表現を提案する。 次に,提案するグラフ表現をグラフニューラルネットワークの入力として使用し,スポーツ結果を予測する。 我々の手法は置換不変性を保ち、フレキシブルなプレイヤー相互作用重み付けを可能にする。 本手法は,アメリカンフットボールとエスポートの双方における予測課題に対して,統計的に有意な改善を実現し,テストセットの損失を9%と20%削減することを示した。 さらに,スポーツにおける「もしもし」質問への回答や,選手間の関係を視覚化するために,我々のモデルをどのように利用できるかを示す。

Predicting outcomes in sports is important for teams, leagues, bettors, media, and fans. Given the growing amount of player tracking data, sports analytics models are increasingly utilizing spatially-derived features built upon player tracking data. However, player-specific information, such as location, cannot readily be included as features themselves, since common modeling techniques rely on vector input. Accordingly, spatially-derived features are commonly constructed in relation to anchor objects, such as the distance to a ball or goal, through global feature aggregations, or via role-assignment schemes, where players are designated a distinct role in the game. In doing so, we sacrifice inter-player and local relationships in favor of global ones. To address this issue, we introduce a sport-agnostic graph-based representation of game states. We then use our proposed graph representation as input to graph neural networks to predict sports outcomes. Our approach preserves permutation invariance and allows for flexible player interaction weights. We demonstrate how our method provides statistically significant improvements over the state of the art for prediction tasks in both American football and esports, reducing test set loss by 9% and 20%, respectively. Additionally, we show how our model can be used to answer "what if" questions in sports and to visualize relationships between players.
翻訳日:2022-07-29 12:46:00 公開日:2022-07-28
# fedvarp: フェデレーション学習における部分的クライアント参加による分散対策

FedVARP: Tackling the Variance Due to Partial Client Participation in Federated Learning ( http://arxiv.org/abs/2207.14130v1 )

ライセンス: Link先を確認
Divyansh Jhunjhunwala, Pranay Sharma, Aushim Nagarkatti and Gauri Joshi(参考訳) data-heterogenous federated learning (fl) システムは、2つの重要な収束エラーの原因に苦しむ。 1)クライアントにおける複数の局所最適化ステップの実行によるクライアントドリフトエラー 2) エッジクライアントのごく一部のサブセットがトレーニングラウンド毎に参加しているという事実による部分的なクライアント参加エラー。 これらのうち、文献で注目されているのは前者のみである。 そこで本研究では,部分的クライアント参加によるエラーを解消する新しい分散低減アルゴリズムfeedvarpを提案する。 そのため、サーバは、各クライアントの最新の更新をメモリ内で保持し、ラウンド毎に非参加クライアントの更新をサロゲートとして使用する。 さらに,サーバのメモリ要求を軽減するため,クラスタリングに基づく分散削減アルゴリズムであるclusterfedvarpを提案する。 以前提案された方法とは異なり、FedVARPとClusterFedVARPはクライアントでの追加計算や追加の最適化パラメータの通信を必要としない。 実験により,FedVARPは最先端の手法より優れており,ClusterFedVARPはFedVARPに匹敵する性能を達成し,メモリ要求をはるかに少なくすることを示す。

Data-heterogeneous federated learning (FL) systems suffer from two significant sources of convergence error: 1) client drift error caused by performing multiple local optimization steps at clients, and 2) partial client participation error caused by the fact that only a small subset of the edge clients participate in every training round. We find that among these, only the former has received significant attention in the literature. To remedy this, we propose FedVARP, a novel variance reduction algorithm applied at the server that eliminates error due to partial client participation. To do so, the server simply maintains in memory the most recent update for each client and uses these as surrogate updates for the non-participating clients in every round. Further, to alleviate the memory requirement at the server, we propose a novel clustering-based variance reduction algorithm ClusterFedVARP. Unlike previously proposed methods, both FedVARP and ClusterFedVARP do not require additional computation at clients or communication of additional optimization parameters. Through extensive experiments, we show that FedVARP outperforms state-of-the-art methods, and ClusterFedVARP achieves performance comparable to FedVARP with much less memory requirements.
翻訳日:2022-07-29 12:45:40 公開日:2022-07-28
# 歩行者・車両衝突危険度推定のための確率的枠組み

A Probabilistic Framework for Estimating the Risk of Pedestrian-Vehicle Conflicts at Intersections ( http://arxiv.org/abs/2207.14145v1 )

ライセンス: Link先を確認
Pei Li, Huizhong Guo, Shan Bao, Arpan Kusari(参考訳) 歩行者による事故の増加により、歩行者の安全は様々な研究において重要な研究課題となっている。 歩行者の安全を積極的に評価するために、交通紛争に基づく研究において、過去の事故を入力として必要とせず、サーロゲート安全対策(ssm)が広く用いられている。 しかし、既存のssmの多くは、道路利用者が一定の速度と方向を維持すると仮定して開発された。 この仮定に基づくリスク推定は不安定ではなく、過大評価される可能性が高く、ドライバーの回避策を捉えられない。 本研究は,既存のSSMの制約を考慮し,交差点における歩行者と車両の衝突リスクを推定するための確率的枠組みを提案する。 提案手法は,ガウスプロセス回帰を用いた軌道予測により一定速度の制約を緩和し,ランダムフォレストモデルによる異なる運転操作を考慮した。 交差点で収集した実世界のLiDARデータを用いて,提案フレームワークの性能評価を行った。 新たに開発されたフレームワークは、歩行者と車両の衝突をすべて識別することができる。 Time-to-Collisionと比較して、提案フレームワークはより安定したリスク推定を提供し、車両の回避操作をキャプチャする。 さらに,提案手法は高価な計算資源を必要としないため,交差点におけるリアルタイムな歩行者安全対策に最適である。

Pedestrian safety has become an important research topic among various studies due to the increased number of pedestrian-involved crashes. To evaluate pedestrian safety proactively, surrogate safety measures (SSMs) have been widely used in traffic conflict-based studies as they do not require historical crashes as inputs. However, most existing SSMs were developed based on the assumption that road users would maintain constant velocity and direction. Risk estimations based on this assumption are less unstable, more likely to be exaggerated, and unable to capture the evasive maneuvers of drivers. Considering the limitations among existing SSMs, this study proposes a probabilistic framework for estimating the risk of pedestrian-vehicle conflicts at intersections. The proposed framework loosen restrictions of constant speed by predicting trajectories using a Gaussian Process Regression and accounts for the different possible driver maneuvers with a Random Forest model. Real-world LiDAR data collected at an intersection was used to evaluate the performance of the proposed framework. The newly developed framework is able to identify all pedestrian-vehicle conflicts. Compared to the Time-to-Collision, the proposed framework provides a more stable risk estimation and captures the evasive maneuvers of vehicles. Moreover, the proposed framework does not require expensive computation resources, which makes it an ideal choice for real-time proactive pedestrian safety solutions at intersections.
翻訳日:2022-07-29 12:45:21 公開日:2022-07-28
# CrAM:圧縮認識最小化器

CrAM: A Compression-Aware Minimizer ( http://arxiv.org/abs/2207.14200v1 )

ライセンス: Link先を確認
Alexandra Peste, Adrian Vladu, Dan Alistarh, Christoph H. Lampert(参考訳) 本稿では,深部ニューラルネットワーク(DNN)のSGDに基づく最適化が,高精度かつ容易に圧縮可能なモデルの生成に適応できるかどうかを考察する。 重み付けや量子化などの圧縮操作下で局所的な損失挙動が安定なモデルを生成するために,SGDトレーニングイテレーションを原則的に修正するCrAMと呼ばれる新しい圧縮対応最小化器を提案する。 標準画像分類タスクにおける実験結果から、CrAMは標準SGD型ベースラインよりも精度の高い高密度モデルを生成するが、これは驚くほど安定であり、例えば、ImageNet上のResNet50では、CrAMでトレーニングされたモデルは1ショットで最大70%の重量を失い、わずかに精度が低下する。

We examine the question of whether SGD-based optimization of deep neural networks (DNNs) can be adapted to produce models which are both highly-accurate and easily-compressible. We propose a new compression-aware minimizer dubbed CrAM, which modifies the SGD training iteration in a principled way, in order to produce models whose local loss behavior is stable under compression operations such as weight pruning or quantization. Experimental results on standard image classification tasks show that CrAM produces dense models that can be more accurate than standard SGD-type baselines, but which are surprisingly stable under weight pruning: for instance, for ResNet50 on ImageNet, CrAM-trained models can lose up to 70% of their weights in one shot with only minor accuracy loss.
翻訳日:2022-07-29 12:45:00 公開日:2022-07-28
# ジェンダー・イン・ジェンダーアウト:コンテクスト・アウェア・レコメンデーションにおけるユーザの属性のクローズアップ

Gender In Gender Out: A Closer Look at User Attributes in Context-Aware Recommendation ( http://arxiv.org/abs/2207.14218v1 )

ライセンス: Link先を確認
Manel Slokom, \"Ozlem \"Ozg\"obek, Martha Larson(参考訳) 本稿では,多様性,カバレッジ,キャリブレーション,データ最小化といった,レコメンダシステムコミュニティの現在の関心事を踏まえて,ユーザ属性について検討する。 副次的な情報を活用する従来の文脈認識推薦システムを用いた実験では,ユーザの属性が常に推奨を改善するとは限らない。 そして、ユーザ属性が多様性とカバレッジに悪影響を及ぼすことを示した。 最後に,リコメンデータが作成したレコメンデーションリストに,トレーニングデータから「生存」したユーザの情報量について検討する。 この情報は弱い信号であり、将来的には校正やプライバシーの漏洩として研究される可能性がある。

This paper studies user attributes in light of current concerns in the recommender system community: diversity, coverage, calibration, and data minimization. In experiments with a conventional context-aware recommender system that leverages side information, we show that user attributes do not always improve recommendation. Then, we demonstrate that user attributes can negatively impact diversity and coverage. Finally, we investigate the amount of information about users that ``survives'' from the training data into the recommendation lists produced by the recommender. This information is a weak signal that could in the future be exploited for calibration or studied further as a privacy leak.
翻訳日:2022-07-29 12:44:44 公開日:2022-07-28
# 観察不能感の反映による人間-ai協調における知覚相補性支援に向けて

Toward Supporting Perceptual Complementarity in Human-AI Collaboration via Reflection on Unobservables ( http://arxiv.org/abs/2207.13834v1 )

ライセンス: Link先を確認
Kenneth Holstein, Maria De-Arteaga, Lakshmi Tumati, Yanghuidi Cheng(参考訳) 多くの実世界の文脈において、成功している人間とAIのコラボレーションは、人間が補完的な情報のソースをAIにインフォームドされた決定に生産的に統合する必要がある。 しかし、実際には、人間の意思決定者は、AIモデルが自分自身にどんな情報にアクセスできるかを理解できないことが多い。 観測できないものについて効果的にコミュニケーションする方法に関するガイドラインは、ほとんどない:結果に影響を与える可能性があるが、モデルでは利用できない機能。 本研究では,モデルアウトプットと非オブザーバブルとのコミュニケーションが,予測を行う際のモデルアウトプットとオブザーバブルの統合にどのように影響するかを,オンライン実験により把握した。 以上の結果から,非可観測性に対するプロンプトの提示は,人間がモデル出力と可観測性を統合する方法を変える可能性があるが,必ずしも性能向上につながるとは限らない。 さらに、これらのプロンプトの影響は、意思決定者の以前のドメインの専門知識によって異なります。 我々はAIに基づく意思決定支援ツールの今後の研究と設計について論じる。

In many real world contexts, successful human-AI collaboration requires humans to productively integrate complementary sources of information into AI-informed decisions. However, in practice human decision-makers often lack understanding of what information an AI model has access to in relation to themselves. There are few available guidelines regarding how to effectively communicate about unobservables: features that may influence the outcome, but which are unavailable to the model. In this work, we conducted an online experiment to understand whether and how explicitly communicating potentially relevant unobservables influences how people integrate model outputs and unobservables when making predictions. Our findings indicate that presenting prompts about unobservables can change how humans integrate model outputs and unobservables, but do not necessarily lead to improved performance. Furthermore, the impacts of these prompts can vary depending on decision-makers' prior domain expertise. We conclude by discussing implications for future research and design of AI-based decision support tools.
翻訳日:2022-07-29 12:44:31 公開日:2022-07-28
# MmWave MIMO通信システムのためのベイズ最適化に基づくビームアライメント

Bayesian Optimization-Based Beam Alignment for MmWave MIMO Communication Systems ( http://arxiv.org/abs/2207.14174v1 )

ライセンス: Link先を確認
Songjie Yang, Baojuan Liu, Zhiqin Hong, Zhongpei Zhang(参考訳) ミリ波通信(mmwave)で使われる非常に狭いビームのため、ビームアライメント(ba)は重要な問題である。 本研究では,mmWave BAの問題点を考察し,機械学習戦略,ベイズ最適化(BO)に基づく新しいビームアライメント方式を提案する。 この文脈では、ビームアライメント問題はブラックボックス関数であると考え、boを使って最適なビームペアを見つける。 BA手順の間、この戦略は測定されたビーム対からの情報を利用して最良のビーム対を予測する。 さらに,勾配向上回帰木モデルに基づく新しいBOアルゴリズムを提案する。 シミュレーションの結果,3種類のサロゲートモデルを用いて提案手法のスペクトル効率性能を示す。 また,提案手法は直交マッチング追従法 (OMP) やトンプソンサンプリング法 (TS-MAB) と比較して,少ないオーバーヘッドでスペクトル効率が得られることを示した。

Due to the very narrow beam used in millimeter wave communication (mmWave), beam alignment (BA) is a critical issue. In this work, we investigate the issue of mmWave BA and present a novel beam alignment scheme on the basis of a machine learning strategy, Bayesian optimization (BO). In this context, we consider the beam alignment issue to be a black box function and then use BO to find the possible optimal beam pair. During the BA procedure, this strategy exploits information from the measured beam pairs to predict the best beam pair. In addition, we suggest a novel BO algorithm based on the gradient boosting regression tree model. The simulation results demonstrate the spectral efficiency performance of our proposed schemes for BA using three different surrogate models. They also demonstrate that the proposed schemes can achieve spectral efficiency with a small overhead when compared to the orthogonal match pursuit (OMP) algorithm and the Thompson sampling-based multi-armed bandit (TS-MAB) method.
翻訳日:2022-07-29 12:43:56 公開日:2022-07-28
# GANの幾何学的規則の書き換え

Rewriting Geometric Rules of a GAN ( http://arxiv.org/abs/2207.14288v1 )

ライセンス: Link先を確認
Sheng-Yu Wang, David Bau, Jun-Yan Zhu(参考訳) 深層生成モデルは、収集されたデータセットに基づいて、多様な現実的なコンテンツの合成を自動化することで、初心者のコンテンツ作成をより容易にする。 しかし、現在の機械学習のアプローチは、データの分散や日常的な体験をはるかに超えたものを合成する、創造的なプロセスの重要な要素を欠いている。 この問題に対処するために、ユーザーは所望の幾何学的変化を伴う少数のオリジナルのモデル出力を編集することで、与えられたモデルを「ワープ」することができる。 本手法では, 単一のモデル層に低ランク更新を適用し, 編集例を再構成する。 さらに, オーバーフィッティング対策として, スタイル混合に基づく潜在空間拡張手法を提案する。 本手法では,幾何学的変化によって無限のオブジェクトを合成するモデルを作成することができ,大規模データセットのキュレーションを伴わずに新たな生成モデルを作成することができる。 また,複合効果を達成するために編集モデルを構成することができることを実証し,合成による新しいモデル作成を可能にする対話型インタフェースを提案する。 複数のテストケースにおける実験的な測定は,近年のGAN微調整法に対して,本手法の利点を示唆している。 最後に, 潜在空間補間や画像編集など, 編集モデルを用いたアプリケーションをいくつか紹介する。

Deep generative models make visual content creation more accessible to novice users by automating the synthesis of diverse, realistic content based on a collected dataset. However, the current machine learning approaches miss a key element of the creative process -- the ability to synthesize things that go far beyond the data distribution and everyday experience. To begin to address this issue, we enable a user to "warp" a given model by editing just a handful of original model outputs with desired geometric changes. Our method applies a low-rank update to a single model layer to reconstruct edited examples. Furthermore, to combat overfitting, we propose a latent space augmentation method based on style-mixing. Our method allows a user to create a model that synthesizes endless objects with defined geometric changes, enabling the creation of a new generative model without the burden of curating a large-scale dataset. We also demonstrate that edited models can be composed to achieve aggregated effects, and we present an interactive interface to enable users to create new models through composition. Empirical measurements on multiple test cases suggest the advantage of our method against recent GAN fine-tuning methods. Finally, we showcase several applications using the edited models, including latent space interpolation and image editing.
翻訳日:2022-07-29 12:40:49 公開日:2022-07-28
# ペルソナ知識対話多言語検索と拡張復号法

Persona-Knowledge Dialogue Multi-Context Retrieval and Enhanced Decoding Methods ( http://arxiv.org/abs/2207.13919v1 )

ライセンス: Link先を確認
Min Sik Oh, Min Sang Kim(参考訳) ペルソナと知識 デュアルコンテキスト オープンドメインチャットは、最近導入された新しい対話生成タスクである。 ペルソナとナレッジはそれぞれオープンドメイン対話の興味深い文脈であるが、両者の組み合わせは十分に研究されていない。 本稿では,Persona-Knowledgeの識別と応答生成タスクに取り組む。 我々は、ニューラルネットワークのq&a検索モデルと互換性のあるインフォームドデータ拡張戦略を設計する。 拡張データを用いてペルソナ知識評価とペルソナ検索の微調整を行う。 さらに,様々な復号化手法を用いて対話生成を行い,重要な要素を示す。 我々は、93.99%のグラウンディング精度と23.62のSacreBLEUスコアを持つ公式の指標でSOTAを達成する。

Persona and Knowledge dual context open-domain chat is a novel dialogue generation task introduced recently. While Persona and Knowledge is each interesting context of open-domain dialogue, the combination of both has not been well studied. We tackle Persona-Knowledge identification and response generation tasks in this paper. We design an informed data augmentation strategy that is compatible with neural Q&A retrieval models. With the augmented data, we perform permutative Persona-Knowledge evaluation and successive Persona search fine-tuning. Furthermore, we perform dialogue generation with various decoding techniques and illustrate crucial elements. We achieve SOTA across official metrics with 93.99% Grounding accuracy average and 23.62 SacreBLEU score.
翻訳日:2022-07-29 12:40:30 公開日:2022-07-28
# ヘマグルチニン配列を用いたインフルエンザウイルス宿主予測のための機械学習アルゴリズム

Dive into Machine Learning Algorithms for Influenza Virus Host Prediction with Hemagglutinin Sequences ( http://arxiv.org/abs/2207.13842v1 )

ライセンス: Link先を確認
Yanhua Xu and Dominik Wojtczak(参考訳) インフルエンザウイルスは急速に変異し、公衆衛生、特に脆弱な集団に脅威をもたらす可能性がある。 歴史を通じて、インフルエンザa型ウイルスは異なる種間でパンデミックを引き起こしてきた。 感染拡大を防ぐためには、ウイルスの起源を特定することが重要である。 近年,ウイルス配列の迅速かつ正確な予測に機械学習アルゴリズムの利用が注目されている。 本研究では,さまざまな分類レベルで機械学習アルゴリズムを評価するために,実検定データセットと各種評価指標を用いた。 ヘマグルチニンは免疫応答の主要なタンパク質であるため、ヘマグルチニン配列のみが用いられ、位置特異的なスコアリングマトリックスと単語埋め込みによって表現された。 その結果、5グラム変換ニューラルネットワークはウイルス配列の予測に最も有効なアルゴリズムであり、99.54%のaucpr、98.01%のf1スコア、96.60%のmcc、94.74%のaucpr、87.41%のf1スコア、80.79%のmccを低い分類レベルで予測する。

Influenza viruses mutate rapidly and can pose a threat to public health, especially to those in vulnerable groups. Throughout history, influenza A viruses have caused pandemics between different species. It is important to identify the origin of a virus in order to prevent the spread of an outbreak. Recently, there has been increasing interest in using machine learning algorithms to provide fast and accurate predictions for viral sequences. In this study, real testing data sets and a variety of evaluation metrics were used to evaluate machine learning algorithms at different taxonomic levels. As hemagglutinin is the major protein in the immune response, only hemagglutinin sequences were used and represented by position-specific scoring matrix and word embedding. The results suggest that the 5-grams-transformer neural network is the most effective algorithm for predicting viral sequence origins, with approximately 99.54% AUCPR, 98.01% F1 score and 96.60% MCC at a higher classification level, and approximately 94.74% AUCPR, 87.41% F1 score and 80.79% MCC at a lower classification level.
翻訳日:2022-07-29 12:39:29 公開日:2022-07-28
# 不均衡半教師付き学習のための分類器適応学習

Learning to Adapt Classifier for Imbalanced Semi-supervised Learning ( http://arxiv.org/abs/2207.13856v1 )

ライセンス: Link先を確認
Renzhen Wang, Xixi Jia, Quanziang Wang, Deyu Meng(参考訳) Pseudo-labelingは有望な半教師付き学習(SSL)パラダイムであることが証明されている。 既存の擬似ラベル法では、トレーニングデータのクラス分布が均衡していると一般的に仮定している。 しかし、このような仮定は現実的なシナリオとは程遠いものであり、既存の擬似ラベル法はクラス不均衡の文脈で深刻な性能低下に苦しむ。 本研究では,不均衡な半教師付きセットアップ下での擬似ラベリングについて検討する。 中心となる考え方は、元の線形分類器に偏りを引き付けるバイアス適応型分類器を用いて、クラス不均衡から生じるトレーニングバイアスを自動的に同化することである。 バイアスアトラクターはトレーニングバイアスに適応するための軽量残留ネットワークとして設計されている。 具体的には、バイアス適応型分類器が不均衡なトレーニングデータに適合し、線形型分類器は各クラスに偏りのないラベル予測を与えるように、二段階の学習フレームワークを通じてバイアスを引き付ける。 各種のアンバランスな半教師付き装置を用いて広範囲な実験を行い,本手法が異なる擬似ラベルモデルに適用可能であり,先行技術より優れていることを示す。

Pseudo-labeling has proven to be a promising semi-supervised learning (SSL) paradigm. Existing pseudo-labeling methods commonly assume that the class distributions of training data are balanced. However, such an assumption is far from realistic scenarios and existing pseudo-labeling methods suffer from severe performance degeneration in the context of class-imbalance. In this work, we investigate pseudo-labeling under imbalanced semi-supervised setups. The core idea is to automatically assimilate the training bias arising from class-imbalance, using a bias adaptive classifier that equips the original linear classifier with a bias attractor. The bias attractor is designed to be a light-weight residual network for adapting to the training bias. Specifically, the bias attractor is learned through a bi-level learning framework such that the bias adaptive classifier is able to fit imbalanced training data, while the linear classifier can give unbiased label prediction for each class. We conduct extensive experiments under various imbalanced semi-supervised setups, and the results demonstrate that our method can be applicable to different pseudo-labeling models and superior to the prior arts.
翻訳日:2022-07-29 12:39:07 公開日:2022-07-28
# 多数のドメインを持つドメイン一般化のための多様性強化学習

Diversity Boosted Learning for Domain Generalization with Large Number of Domains ( http://arxiv.org/abs/2207.13865v1 )

ライセンス: Link先を確認
Xi Leng, Xiaoying Tang, Yatao Bian(参考訳) 平均トレーニング損失を最小化する機械学習アルゴリズムは、通常、分布シフトでは安定しないトレーニングデータ間の相関の欲張りな搾取による一般化性能の低下に苦しむ。 これは、Causal MatchingやFISHといった一連のメソッドがペアのドメイン操作によって動作するドメイン一般化(DG)のための様々な研究を刺激する。 それらは$O(n^2)$ペアワイズドメイン操作と$n$ドメインを必要とする。 さらに、dg文献における共通の目的は、ドメインによって引き起こされるスプリアス相関に対する不変表現を学ぶことであるが、オブジェクトによって引き起こされるスプリアス相関の緩和の重要性を強調している。 多様性が突発的な相関を緩和するのに役立つという観測に基づいて、多数のドメインにおいて最も情報に富むものを効率的にサンプリングするために、決定点プロセス(DPP)を利用した多様性向上型twOレベルsaMplingフレームワーク(DOMI)を提案する。 DOMIは,ドメイン側とオブジェクト側の両方の急激な相関に対するロバストモデルのトレーニングを支援し,MNIST,Fashion MNIST,iwildcamデータセット上でのバックボーンDGアルゴリズムの性能を大幅に向上させる。

Machine learning algorithms minimizing the average training loss usually suffer from poor generalization performance due to the greedy exploitation of correlations among the training data, which are not stable under distributional shifts. It inspires various works for domain generalization (DG), where a series of methods, such as Causal Matching and FISH, work by pairwise domain operations. They would need $O(n^2)$ pairwise domain operations with $n$ domains, where each one is often highly expensive. Moreover, while a common objective in the DG literature is to learn invariant representations against domain-induced spurious correlations, we highlight the importance of mitigating spurious correlations caused by objects. Based on the observation that diversity helps mitigate spurious correlations, we propose a Diversity boosted twO-level saMplIng framework (DOMI) utilizing Determinantal Point Processes (DPPs) to efficiently sample the most informative ones among large number of domains. We show that DOMI helps train robust models against spurious correlations from both domain-side and object-side, substantially enhancing the performance of the backbone DG algorithms on rotated MNIST, rotated Fashion MNIST, and iwildcam datasets.
翻訳日:2022-07-29 12:38:46 公開日:2022-07-28
# データ効率機械学習のための適応2次コアセット

Adaptive Second Order Coresets for Data-efficient Machine Learning ( http://arxiv.org/abs/2207.13887v1 )

ライセンス: Link先を確認
Omead Pooladzandi, David Davini, Baharan Mirzasoleiman(参考訳) 大量のデータセット上で機械学習モデルをトレーニングすると、かなりの計算コストが発生する。 このようなコストを軽減するために、トレーニングデータ全体と同等に一般化したトレーニング例のサブセットを慎重に選択可能な、データ効率の高いトレーニング方法の開発が続けられている。 しかし、既存の手法は、抽出されたサブセット上で訓練されたモデルの品質を理論的に保証することに限定されており、実際は不十分である。 本稿では,データ形状を利用してトレーニング例のサブセットを抽出し,効率的な機械学習を実現する手法であるAdaCoreを提案する。 提案手法の背景にある鍵となる考え方は、Hessian の指数的平均推定により損失関数の曲率を動的に近似し、Hessian に事前条件付き全勾配の近似を与える重み付き部分集合 (coresets) を選択することである。 我々は、adacore によって選択された部分集合に適用される様々な一階および二階法の収束に対する厳密な保証を証明する。 広範な実験により、adacoreはベースラインよりも高品質なコアセットを抽出し、ロジスティック回帰やニューラルネットワークといった凸および非凸機械学習モデルのトレーニングを、全データに対する2.9倍、ランダムなサブセット上で4.5倍高速化することが示された。

Training machine learning models on massive datasets incurs substantial computational costs. To alleviate such costs, there has been a sustained effort to develop data-efficient training methods that can carefully select subsets of the training examples that generalize on par with the full training data. However, existing methods are limited in providing theoretical guarantees for the quality of the models trained on the extracted subsets, and may perform poorly in practice. We propose AdaCore, a method that leverages the geometry of the data to extract subsets of the training examples for efficient machine learning. The key idea behind our method is to dynamically approximate the curvature of the loss function via an exponentially-averaged estimate of the Hessian to select weighted subsets (coresets) that provide a close approximation of the full gradient preconditioned with the Hessian. We prove rigorous guarantees for the convergence of various first and second-order methods applied to the subsets chosen by AdaCore. Our extensive experiments show that AdaCore extracts coresets with higher quality compared to baselines and speeds up training of convex and non-convex machine learning models, such as logistic regression and neural networks, by over 2.9x over the full data and 4.5x over random subsets.
翻訳日:2022-07-29 12:38:20 公開日:2022-07-28
# 大規模小型物体検出に向けて:調査とベンチマーク

Towards Large-Scale Small Object Detection: Survey and Benchmarks ( http://arxiv.org/abs/2207.14096v1 )

ライセンス: Link先を確認
Gong Cheng, Xiang Yuan, Xiwen Yao, Kebing Yan, Qinghua Zeng, and Junwei Han(参考訳) 深層畳み込みニューラルネットワークの台頭により、物体検出はここ数年で顕著な進歩を遂げている。 しかし、そのような繁栄は、小さな目標の本質的な構造によって引き起こされる視覚的外観やノイズの表現のために、コンピュータビジョンにおける非常に困難なタスクの1つである小対象検出(SOD)の不満足な状況に火をつけることができなかった。 さらに、小さなオブジェクト検出メソッドをベンチマークするための大規模なデータセットもボトルネックのままである。 本稿では,まず,小物体検出の徹底的な検討を行う。 次に,SOOD の開発を触媒として,運転シナリオと航空シナリオに焦点を当てた2つの大規模小型物体検出 dAtasets (SODA), SODA-D, SODA-A を構築した。 SODA-Dには、24704の高品質なトラフィックイメージと、9つのカテゴリの277596インスタンスが含まれている。 SODA-Aでは,高分解能空中画像2510点を抽出し,9クラスに800203点のアノテートを行う。 提案されたデータセットは、私たちが知っているように、マルチカテゴリのSOD用に調整された、広範囲に注釈付きインスタンスのコレクションを持つ大規模なベンチマークを最初に試みる試みである。 最後に,SODAにおける主流手法の性能を評価する。 リリースされているベンチマークによってsodの開発が促進され、この分野でさらなるブレークスルーが生まれると期待しています。 データセットとコードは、次のようになる。 \url{https://shaunyuan22.github.io/SODA}。

With the rise of deep convolutional neural networks, object detection has achieved prominent advances in past years. However, such prosperity could not camouflage the unsatisfactory situation of Small Object Detection (SOD), one of the notoriously challenging tasks in computer vision, owing to the poor visual appearance and noisy representation caused by the intrinsic structure of small targets. In addition, large-scale dataset for benchmarking small object detection methods remains a bottleneck. In this paper, we first conduct a thorough review of small object detection. Then, to catalyze the development of SOD, we construct two large-scale Small Object Detection dAtasets (SODA), SODA-D and SODA-A, which focus on the Driving and Aerial scenarios respectively. SODA-D includes 24704 high-quality traffic images and 277596 instances of 9 categories. For SODA-A, we harvest 2510 high-resolution aerial images and annotate 800203 instances over 9 classes. The proposed datasets, as we know, are the first-ever attempt to large-scale benchmarks with a vast collection of exhaustively annotated instances tailored for multi-category SOD. Finally, we evaluate the performance of mainstream methods on SODA. We expect the released benchmarks could facilitate the development of SOD and spawn more breakthroughs in this field. Datasets and codes will be available soon at: \url{https://shaunyuan22.github.io/SODA}.
翻訳日:2022-07-29 12:35:45 公開日:2022-07-28
# 拡張detr収束とマルチスケール特徴融合のための意味整合マッチング

Semantic-Aligned Matching for Enhanced DETR Convergence and Multi-Scale Feature Fusion ( http://arxiv.org/abs/2207.14172v1 )

ライセンス: Link先を確認
Gongjie Zhang, Zhipeng Luo, Yingchen Yu, Jiaxing Huang, Kaiwen Cui, Shijian Lu, Eric P. Xing(参考訳) 最近提案されたDetection TRansformer (DETR) は、オブジェクト検出のための完全なエンドツーエンドパラダイムを確立している。 しかし、DETRは遅いトレーニング収束に悩まされており、様々な検出タスクの適用性を妨げている。 DeTRの緩やかな収束は、オブジェクトクエリと符号化された画像特徴との間の非整合的なセマンティクスにより、オブジェクトクエリと関連する領域とのマッチングが困難であることに起因する。 本研究では,Semantic-Aligned-Matching DETR++ (SAM-DETR++) を設計し,DTRの収束を加速し,検出性能を向上させる。 SAM-DETR++の中核は、オブジェクトクエリとエンコードされたイメージ機能を同じ機能埋め込み空間に投影するプラグイン・アンド・プレイモジュールで、各オブジェクトクエリは、類似したセマンティクスを持つ関連する領域と簡単にマッチングできる。 さらにSAM-DETR++は、複数の代表キーポイントを検索し、その特徴を表現能力の強化とセマンティック整合性マッチングに活用する。 さらにSAM-DETR++は、設計したセマンティック整合性マッチングに基づいて、マルチスケール機能を粗い方法で効果的に融合することができる。 大規模な実験により,提案したSAM-DETR++は収束速度と競合検出精度に優れていた。 さらに、SAM-DETR++はプラグイン・アンド・プレイの方法として、既存のDETR収束ソリューションをさらに優れたパフォーマンスで補完することができ、わずか12のトレーニングエポックと49.1%のAPで44.8%のAP、ResNet-50でCOCO val2017で50のトレーニングエポックを達成している。 コードはhttps://github.com/ZhangGongjie/SAM-DETR で公開されている。

The recently proposed DEtection TRansformer (DETR) has established a fully end-to-end paradigm for object detection. However, DETR suffers from slow training convergence, which hinders its applicability to various detection tasks. We observe that DETR's slow convergence is largely attributed to the difficulty in matching object queries to relevant regions due to the unaligned semantics between object queries and encoded image features. With this observation, we design Semantic-Aligned-Matching DETR++ (SAM-DETR++) to accelerate DETR's convergence and improve detection performance. The core of SAM-DETR++ is a plug-and-play module that projects object queries and encoded image features into the same feature embedding space, where each object query can be easily matched to relevant regions with similar semantics. Besides, SAM-DETR++ searches for multiple representative keypoints and exploits their features for semantic-aligned matching with enhanced representation capacity. Furthermore, SAM-DETR++ can effectively fuse multi-scale features in a coarse-to-fine manner on the basis of the designed semantic-aligned matching. Extensive experiments show that the proposed SAM-DETR++ achieves superior convergence speed and competitive detection accuracy. Additionally, as a plug-and-play method, SAM-DETR++ can complement existing DETR convergence solutions with even better performance, achieving 44.8% AP with merely 12 training epochs and 49.1% AP with 50 training epochs on COCO val2017 with ResNet-50. Codes are available at https://github.com/ZhangGongjie/SAM-DETR .
翻訳日:2022-07-29 12:35:22 公開日:2022-07-28
# 限定アノテーションによる学習:医用画像セグメンテーションのための深層半監督学習に関する調査

Learning with Limited Annotations: A Survey on Deep Semi-Supervised Learning for Medical Image Segmentation ( http://arxiv.org/abs/2207.14191v1 )

ライセンス: Link先を確認
Rushi Jiao, Yichi Zhang, Le Ding, Rong Cai and Jicong Zhang(参考訳) 医用画像のセグメンテーションは多くの画像誘導臨床における基本的かつ重要なステップである。 深層学習に基づくセグメンテーション手法の最近の成功は、一般的に大量のラベル付きデータに依存しており、特に信頼性と正確なアノテーションを提供する専門家のみの医療画像領域において、取得が困難でコストがかかる。 半教師付き学習は魅力的な戦略として登場し、限られたアノテーションで深層モデルを訓練するための医用画像分割タスクに広く応用されている。 本稿では,最近提案された医用画像分割のための半教師あり学習手法の総合的なレビューを行い,技術革新と実証結果の両方を要約する。 さらに,既存のアプローチの限界と未解決問題を分析し,議論する。 このレビューは、この課題に対する解決策を研究コミュニティに探求させ、医療画像セグメンテーション分野のさらなる発展を促すことを願っている。

Medical image segmentation is a fundamental and critical step in many image-guided clinical approaches. Recent success of deep learning-based segmentation methods usually relies on a large amount of labeled data, which is particularly difficult and costly to obtain especially in the medical imaging domain where only experts can provide reliable and accurate annotations. Semi-supervised learning has emerged as an appealing strategy and been widely applied to medical image segmentation tasks to train deep models with limited annotations. In this paper, we present a comprehensive review of recently proposed semi-supervised learning methods for medical image segmentation and summarized both the technical novelties and empirical results. Furthermore, we analyze and discuss the limitations and several unsolved problems of existing approaches. We hope this review could inspire the research community to explore solutions for this challenge and further promote the developments in medical image segmentation field.
翻訳日:2022-07-29 12:34:51 公開日:2022-07-28
# HOI検出におけるBody-Part Interactiveness Learningのためのクロスパーソンキューブのマイニング

Mining Cross-Person Cues for Body-Part Interactiveness Learning in HOI Detection ( http://arxiv.org/abs/2207.14192v1 )

ライセンス: Link先を確認
Xiaoqian Wu, Yong-Lu Li, Xinpeng Liu, Junyi Zhang, Yuzhe Wu, Cewu Lu(参考訳) ヒューマン・オブジェクト・インタラクション(HOI)検出は、活動理解において重要な役割を果たす。 既存の手法は通常、冗長な負のH-Oペアの提案を生成し、インタラクティブなペアを効果的に抽出できない。 対話性は身体レベルと部分レベルの両方で研究され、H-Oペアリングを促進するが、以前の研究は一度だけ対象人物に焦点を合わせ、相手の情報を見落としている。 本稿では,複数人の身体を同時に比較することで,より有用で補助的な対話性を実現することができると論じる。 すなわち、対象者の身体部分の対話性を世界的視点から学習するために、対象者の身体部分の対話性を分類する場合、視覚的手がかりは自分自身からだけでなく、画像内の他者からも探索される。 本研究は, 人体間の情報伝達手段を自意識で抽出し, 全身体間の全体的関係を学習する。 提案手法をHICO-DETとV-COCOで評価した。 我々の新しい視点では、全体的グローバルな身体部分対話性学習は最先端技術よりも大幅に改善されている。 私たちのコードはhttps://github.com/enlighten0707/Body-Part-Map-for-Interactivenessで利用可能です。

Human-Object Interaction (HOI) detection plays a crucial role in activity understanding. Though significant progress has been made, interactiveness learning remains a challenging problem in HOI detection: existing methods usually generate redundant negative H-O pair proposals and fail to effectively extract interactive pairs. Though interactiveness has been studied in both whole body- and part- level and facilitates the H-O pairing, previous works only focus on the target person once (i.e., in a local perspective) and overlook the information of the other persons. In this paper, we argue that comparing body-parts of multi-person simultaneously can afford us more useful and supplementary interactiveness cues. That said, to learn body-part interactiveness from a global perspective: when classifying a target person's body-part interactiveness, visual cues are explored not only from herself/himself but also from other persons in the image. We construct body-part saliency maps based on self-attention to mine cross-person informative cues and learn the holistic relationships between all the body-parts. We evaluate the proposed method on widely-used benchmarks HICO-DET and V-COCO. With our new perspective, the holistic global-local body-part interactiveness learning achieves significant improvements over state-of-the-art. Our code is available at https://github.com/enlighten0707/Body-Part-Map-for-Interactiveness.
翻訳日:2022-07-29 12:34:37 公開日:2022-07-28
# 要求による視覚認識

Visual Recognition by Request ( http://arxiv.org/abs/2207.14227v1 )

ライセンス: Link先を確認
Chufeng Tang, Lingxi Xie, Xiaopeng Zhang, Xiaolin Hu, Qi Tian(参考訳) 本稿では,視覚認識のためのアノテーションと評価のための新しいプロトコルを提案する。 従来の設定とは異なり、このプロトコルではラベラー/アリゴリテムが全てのターゲット(オブジェクト、部品など)を一度に注釈・認識する必要はなく、代わりに多数の認識命令を発生させ、アルゴリズムは要求によってターゲットを認識する。 このメカニズムはアノテーションの負担を減らすために2つの有益な特性をもたらす。 (i)変数の粒度:異なるシナリオは異なるレベルのアノテーションを持つことができる。 (ii) オープンドメイン: 最小限のコストでデータベースに新しい概念を追加することができる。 提案した設定に対処するため,要求に基づいてクエリをオンザフライで構築する問合せベースの視覚認識フレームワークを設計する。 CPP と ADE20K という2つの混合注釈付きデータセットに対する認識システムの評価を行い,部分的にラベル付けされたデータから学習し,テキストラベルのみで新しい概念に適応できることを示す。

In this paper, we present a novel protocol of annotation and evaluation for visual recognition. Different from traditional settings, the protocol does not require the labeler/algorithm to annotate/recognize all targets (objects, parts, etc.) at once, but instead raises a number of recognition instructions and the algorithm recognizes targets by request. This mechanism brings two beneficial properties to reduce the burden of annotation, namely, (i) variable granularity: different scenarios can have different levels of annotation, in particular, object parts can be labeled only in large and clear instances, (ii) being open-domain: new concepts can be added to the database in minimal costs. To deal with the proposed setting, we maintain a knowledge base and design a query-based visual recognition framework that constructs queries on-the-fly based on the requests. We evaluate the recognition system on two mixed-annotated datasets, CPP and ADE20K, and demonstrate its promising ability of learning from partially labeled data as well as adapting to new concepts with only text labels.
翻訳日:2022-07-29 12:34:13 公開日:2022-07-28
# 人間解析と分析的特徴抽出とランキングスキームを組み合わせた高一般化人物同一化

Combining human parsing with analytical feature extraction and ranking schemes for high-generalization person reidentification ( http://arxiv.org/abs/2207.14243v1 )

ライセンス: Link先を確認
Nikita Gabdullin(参考訳) 近年,科学と社会の両面での重要性から,人物再識別(re-ID)が注目されている。 機械学習、特にDeep Learning (DL)は、研究者がベンチマークデータセットで前例のない精度レベルを達成できるようにする主要なRe-idツールとなっている。 しかし、DLモデルの一般化が不十分なことが知られている。 つまり、あるデータセットで高い精度を達成するために訓練されたモデルは、他のデータセットではパフォーマンスが悪く、再トレーニングが必要である。 この問題に対処するために,高一般化の可能性を示すトレーニング可能なパラメータを含まないモデルを提案する。 完全解析的特徴抽出と類似性ランキングスキームとDLに基づく人間構文解析を組み合わせ、初期サブリージョン分類を得る。 このような組み合わせは,既存の解析手法の欠点を極端に排除することを示す。 解釈可能な色とテクスチャの特徴を用い,人間に読みやすい類似性を示す。 提案手法を検証するために,市場1501およびCUHK03データセットを用いて,DLモデルに匹敵する競合ランク1の精度を実現する実験を行った。 最も重要なことは,トランスファー学習タスクに適用すると,63.9%と93.5%のランク-1のクロスドメイン精度が得られることである。 従来報告された30~50%の転送精度よりも有意に高い。 モデルをさらに改善するために、新しい機能を追加する可能性について論じる。 また,人間が生成した問合せを言語記述から構築し,問合せ画像を用いずに検索を行うのに,解釈可能な特徴の利点を示す。

Person reidentification (re-ID) has been receiving increasing attention in recent years due to its importance for both science and society. Machine learning and particularly Deep Learning (DL) has become the main re-id tool that allowed researches to achieve unprecedented accuracy levels on benchmark datasets. However, there is a known problem of poor generalization of DL models. That is, models trained to achieve high accuracy on one dataset perform poorly on other ones and require re-training. To address this issue, we present a model without trainable parameters which shows great potential for high generalization. It combines a fully analytical feature extraction and similarity ranking scheme with DL-based human parsing used to obtain the initial subregion classification. We show that such combination to a high extent eliminates the drawbacks of existing analytical methods. We use interpretable color and texture features which have human-readable similarity measures associated with them. To verify the proposed method we conduct experiments on Market1501 and CUHK03 datasets achieving competitive rank-1 accuracy comparable with that of DL-models. Most importantly we show that our method achieves 63.9% and 93.5% rank-1 cross-domain accuracy when applied to transfer learning tasks. It is significantly higher than previously reported 30-50% transfer accuracy. We discuss the potential ways of adding new features to further improve the model. We also show the advantage of interpretable features for constructing human-generated queries from verbal description to conduct search without a query image.
翻訳日:2022-07-29 12:33:54 公開日:2022-07-28
# MonteBoxFinder:ノイズの多いポイントクラウドにフィットするプリミティブの検出とフィルタリング

MonteBoxFinder: Detecting and Filtering Primitives to Fit a Noisy Point Cloud ( http://arxiv.org/abs/2207.14268v1 )

ライセンス: Link先を確認
Micha\"el Ramamonjisoa, Sinisa Stekovic, Vincent Lepetit(参考訳) ノイズの多い入力ポイントクラウドを与えられたMonteBoxFinderは、入力シーンにキュービイドを適合させる。 我々の主な貢献は離散最適化アルゴリズムであり、初期検出された立方体の密集集合から、ノイズの多いものから良い箱を効率的にフィルタリングすることができる。 MCTSのシーン理解問題への最近の応用に触発されて、我々は、より効率的に設計できる確率的アルゴリズムを開発した。 実際、立方体配置の適合性は、立方体がシーンに付加される順序に不変である。 この問題に対する検索ベースラインを複数開発し,scannetデータセット上でより効率的かつ正確であることを実証した。 最後に、我々のコアアルゴリズムは非常に一般的なものであり、3Dシーン理解における他の多くの問題にまで拡張できると強く信じている。

We present MonteBoxFinder, a method that, given a noisy input point cloud, fits cuboids to the input scene. Our primary contribution is a discrete optimization algorithm that, from a dense set of initially detected cuboids, is able to efficiently filter good boxes from the noisy ones. Inspired by recent applications of MCTS to scene understanding problems, we develop a stochastic algorithm that is, by design, more efficient for our task. Indeed, the quality of a fit for a cuboid arrangement is invariant to the order in which the cuboids are added into the scene. We develop several search baselines for our problem and demonstrate, on the ScanNet dataset, that our approach is more efficient and precise. Finally, we strongly believe that our core algorithm is very general and that it could be extended to many other problems in 3D scene understanding.
翻訳日:2022-07-29 12:33:28 公開日:2022-07-28
# CuDi:効率よくかつ制御可能な露光調整のための曲線蒸留

CuDi: Curve Distillation for Efficient and Controllable Exposure Adjustment ( http://arxiv.org/abs/2207.14273v1 )

ライセンス: Link先を確認
Chongyi Li, Chunle Guo, Ruicheng Feng, Shangchen Zhou, Chen Change Loy(参考訳) トレーニング中にペアデータや非ペアデータを必要とすることなく,効率良く制御可能な露光調整を行うために,曲線蒸留法cudiを提案する。 提案手法は,効率的な低光度画像強調法であるzero-dceからゼロ参照学習および曲線ベースフレームワークを継承し,その推定速度のさらなる向上,モデルサイズの減少,制御可能な露出調整への拡張を行う。 改良された推論速度と軽量モデルは,高次曲線の接線による従来の曲線ベースフレームワークにおける時間的反復操作を近似した新しい曲線蒸留により達成される。 入力条件として機能する露光マップの輝度分布に近接する出力の異なる空間領域の露光レベルを制限する、新たな自己監督型空間露光制御損失により、制御可能な露光調整が可能となる。 未公開または過剰露出の写真のみを補正できる既存の方法とは異なり、このアプローチでは、未公開写真と過剰露出写真の両方を1つのモデルで修正する。 特に,提案手法では,推定段階で予め定義したり手動で設定したりできる入力条件露光マップのガイダンスにより,グローバルあるいは局所的に写真の露光レベルを調整できる。 広範にわたる実験により,本手法は高速で頑健でフレキシブルな性能をアピールし,実シーンにおける最先端の手法よりも優れることを示した。 プロジェクトページ: https://li-chongyi.github.io/CuDi_files/

We present Curve Distillation, CuDi, for efficient and controllable exposure adjustment without the requirement of paired or unpaired data during training. Our method inherits the zero-reference learning and curve-based framework from an effective low-light image enhancement method, Zero-DCE, with further speed up in its inference speed, reduction in its model size, and extension to controllable exposure adjustment. The improved inference speed and lightweight model are achieved through novel curve distillation that approximates the time-consuming iterative operation in the conventional curve-based framework by high-order curve's tangent line. The controllable exposure adjustment is made possible with a new self-supervised spatial exposure control loss that constrains the exposure levels of different spatial regions of the output to be close to the brightness distribution of an exposure map serving as an input condition. Different from most existing methods that can only correct either underexposed or overexposed photos, our approach corrects both underexposed and overexposed photos with a single model. Notably, our approach can additionally adjust the exposure levels of a photo globally or locally with the guidance of an input condition exposure map, which can be pre-defined or manually set in the inference stage. Through extensive experiments, we show that our method is appealing for its fast, robust, and flexible performance, outperforming state-of-the-art methods in real scenes. Project page: https://li-chongyi.github.io/CuDi_files/.
翻訳日:2022-07-29 12:33:13 公開日:2022-07-28
# テレビ番組で3d人間と環境を再現した

The One Where They Reconstructed 3D Humans and Environments in TV Shows ( http://arxiv.org/abs/2207.14279v1 )

ライセンス: Link先を確認
Georgios Pavlakos, Ethan Weber, Matthew Tancik, Angjoo Kanazawa(参考訳) テレビ番組は様々な人間の行動を描写しており、多くのアプリケーションで豊富なデータソースになる可能性について広く研究されている。 しかし、既存の研究の大部分は2D認識タスクに焦点を当てている。 本稿では,テレビ番組に一定の持続性,すなわち環境と人間の繰り返しが存在することを観察し,このコンテンツを3次元的に再構成することを可能にする。 そこで,本研究では,テレビ番組の全シーズンを通して動作し,情報を3dに集約する自動的手法を提案し,環境の3dモデルを構築し,カメラ情報,静的3dシーン構造,体格情報を計算する。 次に,この情報がどのようにリッチな3dコンテキストとして作用し,これらの環境における3d人間のポーズと位置の回復を誘導し改善するかを示す。 さらに、人間とその環境を3Dで推論することで、再識別、視線推定、撮影、画像編集など、幅広い下流の応用が可能になることを示す。 提案手法を7つのテレビ番組の環境に適用し,提案システムの広範な評価を行う。

TV shows depict a wide variety of human behaviors and have been studied extensively for their potential to be a rich source of data for many applications. However, the majority of the existing work focuses on 2D recognition tasks. In this paper, we make the observation that there is a certain persistence in TV shows, i.e., repetition of the environments and the humans, which makes possible the 3D reconstruction of this content. Building on this insight, we propose an automatic approach that operates on an entire season of a TV show and aggregates information in 3D; we build a 3D model of the environment, compute camera information, static 3D scene structure and body scale information. Then, we demonstrate how this information acts as rich 3D context that can guide and improve the recovery of 3D human pose and position in these environments. Moreover, we show that reasoning about humans and their environment in 3D enables a broad range of downstream applications: re-identification, gaze estimation, cinematography and image editing. We apply our approach on environments from seven iconic TV shows and perform an extensive evaluation of the proposed system.
翻訳日:2022-07-29 12:32:49 公開日:2022-07-28
# HorNet: 再帰的ゲーテッド畳み込みによる高次空間相互作用

HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions ( http://arxiv.org/abs/2207.14284v1 )

ライセンス: Link先を確認
Yongming Rao, Wenliang Zhao, Yansong Tang, Jie Zhou, Ser-Nam Lim, Jiwen Lu(参考訳) 視覚トランスフォーマーの最近の進歩は、ドット生成自己着眼に基づく新しい空間モデリング機構によって駆動される様々なタスクで大きな成功を収めている。 本稿では,視覚変換器の主要な要素である,入力適応型,長距離,高次空間相互作用も,畳み込みに基づくフレームワークで効率的に実装可能であることを示す。 本稿では、ゲート型畳み込みと再帰的設計による高次空間相互作用を行うRecursive Gated Convolution ($\textit{g}^\textit{n}$Conv)を提案する。 新しい操作は非常に柔軟でカスタマイズ可能で、様々な種類の畳み込みと互換性があり、余分な計算を導入することなく、自己の2階の相互作用を任意の順序に拡張する。 $\textit{g}^\textit{n}$Convは様々な視覚変換器や畳み込みベースのモデルを改善するためのプラグアンドプレイモジュールとして機能する。 この操作に基づいて,hornetと呼ばれる汎用視覚バックボーンの新たなファミリーを構築した。 ImageNet分類、COCOオブジェクト検出、ADE20Kセマンティックセマンティックセグメンテーションに関する大規模な実験は、HorNetがSwin TransformersとConvNeXtを、全体的なアーキテクチャとトレーニング構成に類似した大きなマージンで上回っていることを示している。 HorNetはまた、より多くのトレーニングデータとより大きなモデルサイズに対して好適なスケーラビリティを示している。 ビジュアルエンコーダの有効性は別として,タスク固有のデコーダに$\textit{g}^\textit{n}$Convを適用することで,より少ない計算で高い予測性能を向上できることを示す。 その結果、$\textit{g}^\textit{n}$convは視覚トランスフォーマーとcnnの両方の利点を効果的に組み合わせた視覚モデリングのための新しい基本モジュールとなることが判明した。 コードはhttps://github.com/raoyongming/HorNetで入手できる。

Recent progress in vision Transformers exhibits great success in various tasks driven by the new spatial modeling mechanism based on dot-product self-attention. In this paper, we show that the key ingredients behind the vision Transformers, namely input-adaptive, long-range and high-order spatial interactions, can also be efficiently implemented with a convolution-based framework. We present the Recursive Gated Convolution ($\textit{g}^\textit{n}$Conv) that performs high-order spatial interactions with gated convolutions and recursive designs. The new operation is highly flexible and customizable, which is compatible with various variants of convolution and extends the two-order interactions in self-attention to arbitrary orders without introducing significant extra computation. $\textit{g}^\textit{n}$Conv can serve as a plug-and-play module to improve various vision Transformers and convolution-based models. Based on the operation, we construct a new family of generic vision backbones named HorNet. Extensive experiments on ImageNet classification, COCO object detection and ADE20K semantic segmentation show HorNet outperform Swin Transformers and ConvNeXt by a significant margin with similar overall architecture and training configurations. HorNet also shows favorable scalability to more training data and a larger model size. Apart from the effectiveness in visual encoders, we also show $\textit{g}^\textit{n}$Conv can be applied to task-specific decoders and consistently improve dense prediction performance with less computation. Our results demonstrate that $\textit{g}^\textit{n}$Conv can be a new basic module for visual modeling that effectively combines the merits of both vision Transformers and CNNs. Code is available at https://github.com/raoyongming/HorNet
翻訳日:2022-07-29 12:32:31 公開日:2022-07-28
# dnswin: 連続ウェーブレットスライディング変換による実世界のデノーミングに向けて

DnSwin: Toward Real-World Denoising via Continuous Wavelet Sliding-Transformer ( http://arxiv.org/abs/2207.13861v1 )

ライセンス: Link先を確認
Hao Li, Zhijing Yang, Xiaobin Hong, Ziying Zhao, Junyang Chen, Yukai Shi, Jinshan Pan(参考訳) 実世界の画像復号化は,Wild ノイズ入力からクリーンな画像を得るための実用的な画像復元問題である。 近年、視覚トランスフォーマー(vit)は長距離の依存関係を捉える能力が強く、多くの研究者がvitを画像表示タスクに適用しようと試みている。 しかし、現実のイメージは、ViTが内部のパッチに長距離依存するように分離されたフレームであり、イメージをパッチに分割し、ノイズパターンと勾配の連続性を乱す。 本稿では,実世界の場面で周波数対応を構築する連続ウェーブレットスライディング変換器dnswinを用いて,この問題を解決することを提案する。 具体的には,まずcnnエンコーダを用いてノイズ入力画像からボトム特徴を抽出する。 DnSwinの鍵は、高周波および低周波情報を特徴から分離し、周波数依存性を構築することである。 そこで本研究では,離散ウェーブレット変換,自己アテンション,逆離散ウェーブレット変換を用いて深い特徴を抽出するウェーブレットスライディングウィンドウトランスを提案する。 最後に,cnnデコーダを用いて深部特徴をデノ化画像に再構成する。 実世界のdenoisingベンチマークにおける定量的および定性的な評価は、提案したDnSwinが最先端の手法に対して好適に機能することを示す。

Real-world image denoising is a practical image restoration problem that aims to obtain clean images from in-the-wild noisy input. Recently, Vision Transformer (ViT) exhibits a strong ability to capture long-range dependencies and many researchers attempt to apply ViT to image denoising tasks. However, real-world image is an isolated frame that makes the ViT build the long-range dependencies on the internal patches, which divides images into patches and disarranges the noise pattern and gradient continuity. In this article, we propose to resolve this issue by using a continuous Wavelet Sliding-Transformer that builds frequency correspondence under real-world scenes, called DnSwin. Specifically, we first extract the bottom features from noisy input images by using a CNN encoder. The key to DnSwin is to separate high-frequency and low-frequency information from the features and build frequency dependencies. To this end, we propose Wavelet Sliding-Window Transformer that utilizes discrete wavelet transform, self-attention and inverse discrete wavelet transform to extract deep features. Finally, we reconstruct the deep features into denoised images using a CNN decoder. Both quantitative and qualitative evaluations on real-world denoising benchmarks demonstrate that the proposed DnSwin performs favorably against the state-of-the-art methods.
翻訳日:2022-07-29 12:29:57 公開日:2022-07-28
# MKANet:衛星リモートセンシング画像の効率的な土地被覆分類のためのソベル境界損失付き軽量ネットワーク

MKANet: A Lightweight Network with Sobel Boundary Loss for Efficient Land-cover Classification of Satellite Remote Sensing Imagery ( http://arxiv.org/abs/2207.13866v1 )

ライセンス: Link先を確認
Zhiqi Zhang, Wen Lu, Jinshan Cao, Guangqi Xie(参考訳) 土地被覆分類は、各ピクセルを水、土壌、自然植生、作物、人間のインフラなど、地球表面の特定の自然または人工のカテゴリーに分類する多クラス区分作業である。 ハードウェアの計算資源とメモリ容量に制限され、既存の研究のほとんどは、深層ニューラルネットワークに送信する前に、512*512ピクセル未満の小さなパッチにサンプリングまたはトリミングすることで、オリジナルのリモートセンシングイメージを前処理した。 しかし、画像のダウンサンプリングは空間的詳細損失を引き起こし、小さなセグメントを識別しにくくし、数十年の努力によって得られた空間分解能の進歩を逆転させる。 イメージを小さなパッチに分割すると、長距離のコンテキスト情報が失われ、予測結果が元のサイズに復元されるため、レイテンシが増大する。 上記の弱点に対応するために、MKANetと呼ばれる効率的な軽量セマンティックセグメンテーションネットワークを提案する。 トップビューの高解像度リモートセンシング画像の特徴を考慮し、MKANetはカーネルの共有を利用して、一貫性のないスケールのグラウンドセグメントを同時に均等に扱うとともに、推論速度とフレンドリーなサポートイメージパッチを10倍以上に向上させるために、並列および浅層アーキテクチャを採用している。 境界と小セグメントの識別を強化するために, カテゴリー不純物領域を捕捉し, 境界情報を活用し, 境界と小セグメントの判断に余分なペナルティを課す手法を提案する。 MKANetは2つの土地被覆分類データセットの最先端の精度を取得し、他の競合する軽量ネットワークよりも2倍高速に推定することを示した。 これらすべてのメリットは、実用アプリケーションにおけるMKANetの可能性を強調している。

Land cover classification is a multi-class segmentation task to classify each pixel into a certain natural or man-made category of the earth surface, such as water, soil, natural vegetation, crops, and human infrastructure. Limited by hardware computational resources and memory capacity, most existing studies preprocessed original remote sensing images by down sampling or cropping them into small patches less than 512*512 pixels before sending them to a deep neural network. However, down sampling images incurs spatial detail loss, renders small segments hard to discriminate, and reverses the spatial resolution progress obtained by decades of years of efforts. Cropping images into small patches causes a loss of long-range context information, and restoring the predicted results to their original size brings extra latency. In response to the above weaknesses, we present an efficient lightweight semantic segmentation network termed MKANet. Aimed at the characteristics of top view high-resolution remote sensing imagery, MKANet utilizes sharing kernels to simultaneously and equally handle ground segments of inconsistent scales, and also employs parallel and shallow architecture to boost inference speed and friendly support image patches more than 10X larger. To enhance boundary and small segments discrimination, we also propose a method that captures category impurity areas, exploits boundary information and exerts an extra penalty on boundaries and small segment misjudgment. Both visual interpretations and quantitative metrics of extensive experiments demonstrate that MKANet acquires state-of-the-art accuracy on two land-cover classification datasets and infers 2X faster than other competitive lightweight networks. All these merits highlight the potential of MKANet in practical applications.
翻訳日:2022-07-29 12:29:29 公開日:2022-07-28
# なぜ正確でないのか:オブジェクト検出における一貫性の必要性

Why Accuracy Is Not Enough: The Need for Consistency in Object Detection ( http://arxiv.org/abs/2207.13890v1 )

ライセンス: Link先を確認
Caleb Tung, Abhinav Goel, Fischer Bordwell, Nick Eliopoulos, Xiao Hu, George K. Thiruvathukal, Yung-Hsiang Lu(参考訳) オブジェクト検出器は多くの現代のコンピュータビジョンアプリケーションにとって不可欠である。 しかし、最先端の物体検出器でさえ完璧ではない。 人間の目と似ている2つの画像に対して、同じ検出器は、カメラセンサーのノイズや照明の変化などの小さな画像歪みのために、異なる予測を行うことができる。 この問題は矛盾と呼ばれる。 既存の精度指標は不整合を適切に考慮していないため、この領域でも同様な作業は人工画像歪みの改善だけを対象としている。 そこで本研究では,非人工映像フレームを用いて時間とともに,フレーム間の物体検出の一貫性を測定する手法を提案する。 この手法を用いて,マルチオブジェクト追跡課題の異なるビデオデータセットにおいて,現代の物体検出器の一貫性が83.2%から97.1%まで変化することを示した。 画像の歪み補正を施すことで結論づける。 WEBP画像圧縮とアンシャープマスキングは、精度を損なうことなく、最大5.1%の一貫性を向上させることができる。

Object detectors are vital to many modern computer vision applications. However, even state-of-the-art object detectors are not perfect. On two images that look similar to human eyes, the same detector can make different predictions because of small image distortions like camera sensor noise and lighting changes. This problem is called inconsistency. Existing accuracy metrics do not properly account for inconsistency, and similar work in this area only targets improvements on artificial image distortions. Therefore, we propose a method to use non-artificial video frames to measure object detection consistency over time, across frames. Using this method, we show that the consistency of modern object detectors ranges from 83.2% to 97.1% on different video datasets from the Multiple Object Tracking Challenge. We conclude by showing that applying image distortion corrections like .WEBP Image Compression and Unsharp Masking can improve consistency by as much as 5.1%, with no loss in accuracy.
翻訳日:2022-07-29 12:28:53 公開日:2022-07-28
# メタラーニングによるブラインド超解像の分解表現

Meta-Learning based Degradation Representation for Blind Super-Resolution ( http://arxiv.org/abs/2207.13963v1 )

ライセンス: Link先を確認
Bin Xia, Yapeng Tian, Yulun Zhang, Yucheng Hang, Wenming Yang, Qingmin Liao(参考訳) CNNベースの超解像法(SR)の最も多くは、分解が知られていると仮定する(\eg, bicubic)。 これらの手法は、劣化が仮定と異なる場合、深刻なパフォーマンス低下に苦しむ。 したがって、実際の劣化空間をカバーするために、複数の劣化の複雑な組み合わせでSRネットワークを訓練しようとするアプローチもある。 複数の未知の劣化に対応するために、明示的な劣化推定器を導入することでsr性能が実際に向上する。 しかしながら、従来の明示的劣化推定法は、通常、基底ぼけカーネルの監督によりガウスのぼけを予測し、推定誤差がsrの故障を引き起こす可能性がある。 したがって、暗黙の判別的劣化表現を抽出する方法を設計する必要がある。 そこで本研究では,メタラーニングネットワーク(MLN),デグラデーション抽出ネットワーク(DEN),領域デグラデーション認識SRネットワーク(RDAN)を含むメタラーニングベースのRegional Degradation Aware SR Network(MRDA)を提案する。 基礎的劣化の欠如に対処するため,MLNを用いて,数回の反復後に特定の複雑な劣化に迅速に適応し,暗黙的な劣化情報を抽出する。 その後、教師ネットワークmda$_{t}$がmlnにより抽出された劣化情報をsrにさらに活用するように設計される。 しかし、MLNは推論フェーズでは利用できないペア化低分解能(LR)と対応する高分解能(HR)画像を反復する必要がある。 そこで我々は,学生ネットワークがLR画像から教師と同じ暗黙的劣化表現(IDR)を直接抽出できるように,知識蒸留(KD)を採用する。

The most of CNN based super-resolution (SR) methods assume that the degradation is known (\eg, bicubic). These methods will suffer a severe performance drop when the degradation is different from their assumption. Therefore, some approaches attempt to train SR networks with the complex combination of multiple degradations to cover the real degradation space. To adapt to multiple unknown degradations, introducing an explicit degradation estimator can actually facilitate SR performance. However, previous explicit degradation estimation methods usually predict Gaussian blur with the supervision of groundtruth blur kernels, and estimation errors may lead to SR failure. Thus, it is necessary to design a method that can extract implicit discriminative degradation representation. To this end, we propose a Meta-Learning based Region Degradation Aware SR Network (MRDA), including Meta-Learning Network (MLN), Degradation Extraction Network (DEN), and Region Degradation Aware SR Network (RDAN). To handle the lack of groundtruth degradation, we use the MLN to rapidly adapt to the specific complex degradation after several iterations and extract implicit degradation information. Subsequently, a teacher network MRDA$_{T}$ is designed to further utilize the degradation information extracted by MLN for SR. However, MLN requires iterating on paired low-resolution (LR) and corresponding high-resolution (HR) images, which is unavailable in the inference phase. Therefore, we adopt knowledge distillation (KD) to make the student network learn to directly extract the same implicit degradation representation (IDR) as the teacher from LR images.
翻訳日:2022-07-29 12:28:35 公開日:2022-07-28
# マルチラベルリモートセンシング画像分類におけるラベルノイズの種類の違いの影響について

On the Effects of Different Types of Label Noise in Multi-Label Remote Sensing Image Classification ( http://arxiv.org/abs/2207.13975v1 )

ライセンス: Link先を確認
Tom Burgert, Mahdyar Ravanbakhsh, Beg\"um Demir(参考訳) リモートセンシング(rs)画像の高精度マルチラベル分類法(mlc)の開発は、rsにおける最も重要な研究課題の一つである。 MLC問題に対処するために、複数のランドカバークラスラベル(マルチラベル)で注釈付けされた多数の信頼できるトレーニングイメージを必要とするディープニューラルネットワークがRSで人気である。 しかし、このようなアノテーションの収集には時間と費用がかかります。 ゼロラベリングコストでアノテーションを取得する一般的な手順は、テーマ製品やクラウドソースのラベルに依存することである。 欠点として、これらの手順はMLCアルゴリズムの学習過程を歪ませるラベルノイズの危険性がある。 文献では、ほとんどのラベルノイズロバストな手法は、コンピュータビジョン(cv)における単一ラベル分類(slc)問題のために設計されており、各画像は単一のラベルで注釈されている。 SLCとは異なり、MLCのラベルノイズは次のように関連付けられる。 1)減算的ラベルノイズ(画像にそのクラスが存在する間、ランドカバークラスラベルは画像に割り当てられない) 2)付加的なラベルノイズ(そのクラスが所定の画像に存在しないが、ランドカバークラスラベルが画像に割り当てられる) 3)混合ラベルノイズ(両者の組み合わせ)。 本稿では,3種類のノイズ頑健なCV SLC法について検討し,RSのマルチラベルノイズシナリオに対して頑健であるように適応する。 実験中, 異なる種類のマルチラベル雑音の影響について検討し, 適応法を厳格に評価した。 この目的のために我々は,不在クラスと現在クラスのラベルを一様確率でフリップする一様ラベルノイズ注入方式と比較して,運用シナリオをシミュレートするのに適した合成マルチラベルノイズ注入方式を導入する。 さらに,マルチラベル雑音下におけるmlc問題における評価指標の相違について検討した。

The development of accurate methods for multi-label classification (MLC) of remote sensing (RS) images is one of the most important research topics in RS. To address MLC problems, the use of deep neural networks that require a high number of reliable training images annotated by multiple land-cover class labels (multi-labels) have been found popular in RS. However, collecting such annotations is time-consuming and costly. A common procedure to obtain annotations at zero labeling cost is to rely on thematic products or crowdsourced labels. As a drawback, these procedures come with the risk of label noise that can distort the learning process of the MLC algorithms. In the literature, most label noise robust methods are designed for single label classification (SLC) problems in computer vision (CV), where each image is annotated by a single label. Unlike SLC, label noise in MLC can be associated with: 1) subtractive label-noise (a land cover class label is not assigned to an image while that class is present in the image); 2) additive label-noise (a land cover class label is assigned to an image although that class is not present in the given image); and 3) mixed label-noise (a combination of both). In this paper, we investigate three different noise robust CV SLC methods and adapt them to be robust for multi-label noise scenarios in RS. During experiments we study the effects of different types of multi-label noise and evaluate the adapted methods rigorously. To this end, we also introduce a synthetic multi-label noise injection strategy that is more adequate to simulate operational scenarios compared to the uniform label noise injection strategy, in which the labels of absent and present classes are flipped at uniform probability. Further, we study the relevance of different evaluation metrics in MLC problems under noisy multi-labels.
翻訳日:2022-07-29 12:28:03 公開日:2022-07-28
# 高品質ビデオインスタンスセグメンテーションのためのビデオマスクトランスファイナ

Video Mask Transfiner for High-Quality Video Instance Segmentation ( http://arxiv.org/abs/2207.14012v1 )

ライセンス: Link先を確認
Lei Ke, Henghui Ding, Martin Danelljan, Yu-Wing Tai, Chi-Keung Tang, Fisher Yu(参考訳) ビデオインスタンスセグメンテーション(VIS)は急速に進歩しているが、現在のアプローチでは、正確な境界の詳細を持つ高品質なマスクの予測に苦労している。 さらに,予測されたセグメント化は時間とともに変動することが多く,時間的一貫性が無視されるか,完全には利用されないことが示唆された。 本稿では,これらの課題に対処し,高精細で時間的に安定したマスク予測を実現することを目的とした。 まず,高効率なビデオトランス構造により,高精細な高精細な特徴を活用できるビデオマスクトランスファイナ(VMT)法を提案する。 我々のVMTは、ビデオセグメント内の各トラックレットのスパースエラー発生時空間を検出し、グループ化し、その後、ローカルおよびインスタンスレベルのキューを使用して精査する。 第2に,人気のあるyoutube-visデータセットの粗い境界アノテーションが大きな制限因子であることを示す。 そこで我々は,VMTアーキテクチャに基づいて,反復学習と自己補正による自動アノテーション修正アプローチを設計する。 VISの高品質マスク予測をベンチマークするために、手動で再注釈したテストセットと、自動修正されたトレーニングデータからなるHQ-YTVISデータセットを導入する。 我々はVMTとHQ-YTVISの最新の最先端手法、Youtube-VIS、OVIS、BDD100K MOTSベンチマークを比較した。 実験により, 複雑な物体と動的物体のセグメンテーションにおける手法の有効性と有効性を明らかにした。

While Video Instance Segmentation (VIS) has seen rapid progress, current approaches struggle to predict high-quality masks with accurate boundary details. Moreover, the predicted segmentations often fluctuate over time, suggesting that temporal consistency cues are neglected or not fully utilized. In this paper, we set out to tackle these issues, with the aim of achieving highly detailed and more temporally stable mask predictions for VIS. We first propose the Video Mask Transfiner (VMT) method, capable of leveraging fine-grained high-resolution features thanks to a highly efficient video transformer structure. Our VMT detects and groups sparse error-prone spatio-temporal regions of each tracklet in the video segment, which are then refined using both local and instance-level cues. Second, we identify that the coarse boundary annotations of the popular YouTube-VIS dataset constitute a major limiting factor. Based on our VMT architecture, we therefore design an automated annotation refinement approach by iterative training and self-correction. To benchmark high-quality mask predictions for VIS, we introduce the HQ-YTVIS dataset, consisting of a manually re-annotated test set and our automatically refined training data. We compare VMT with the most recent state-of-the-art methods on the HQ-YTVIS, as well as the Youtube-VIS, OVIS and BDD100K MOTS benchmarks. Experimental results clearly demonstrate the efficacy and effectiveness of our method on segmenting complex and dynamic objects, by capturing precise details.
翻訳日:2022-07-29 12:27:29 公開日:2022-07-28
# ニューラルストランド:マルチビュー画像から毛髪形状と外観を学ぶ

Neural Strands: Learning Hair Geometry and Appearance from Multi-View Images ( http://arxiv.org/abs/2207.14067v1 )

ライセンス: Link先を確認
Radu Alexandru Rosu, Shunsuke Saito, Ziyan Wang, Chenglei Wu, Sven Behnke, Giljoo Nam(参考訳) マルチビュー画像入力から正確な毛髪形状と外観をモデル化する新しい学習フレームワークであるNeural Strandsを提案する。 学習したヘアモデルは、高忠実度ビュー依存効果のあるあらゆる視点からリアルタイムでレンダリングすることができる。 本モデルは容積制御と異なり,直感的な形状とスタイル制御を実現する。 これらの特性を実現するために,各テクセル位置における個々の鎖の形状と外観を符号化した神経頭皮テクスチャに基づく新しい毛髪表現を提案する。 さらに,学習したヘアストランドのラスタ化に基づく新しいニューラルネットワークレンダリングフレームワークを提案する。 私たちのニューラルレンダリングはストランド正確でアンチエイリアスで、レンダリングビューが一貫性があり、フォトリアリスティックです。 外観とマルチビュー幾何学的先行性を組み合わせることで,複数ビュー設定による外観学習と明示的な毛髪形状の同時学習を可能にした。 我々は,様々な髪型に対する忠実さと効率性の観点から,このアプローチの有効性を示す。

We present Neural Strands, a novel learning framework for modeling accurate hair geometry and appearance from multi-view image inputs. The learned hair model can be rendered in real-time from any viewpoint with high-fidelity view-dependent effects. Our model achieves intuitive shape and style control unlike volumetric counterparts. To enable these properties, we propose a novel hair representation based on a neural scalp texture that encodes the geometry and appearance of individual strands at each texel location. Furthermore, we introduce a novel neural rendering framework based on rasterization of the learned hair strands. Our neural rendering is strand-accurate and anti-aliased, making the rendering view-consistent and photorealistic. Combining appearance with a multi-view geometric prior, we enable, for the first time, the joint learning of appearance and explicit hair geometry from a multi-view setup. We demonstrate the efficacy of our approach in terms of fidelity and efficiency for various hairstyles.
翻訳日:2022-07-29 12:27:01 公開日:2022-07-28
# scribbleアノテーションを用いた弱教師付き迷彩物体検出

Weakly-Supervised Camouflaged Object Detection with Scribble Annotations ( http://arxiv.org/abs/2207.14083v1 )

ライセンス: Link先を確認
Ruozhen He and Qihua Dong and Jiaying Lin and Rynson W.H. Lau(参考訳) 既存のcamouflaged object detection (cod)メソッドは、ピクセル単位のアノテーションを持つ大規模データセットに大きく依存している。 しかし、曖昧な境界のため、カモフラージュオブジェクトをピクセル単位(画像あたり約60分)に注釈するのに非常に時間がかかり、労力がかかる。 本稿では,scribbleアノテーションを監督に用いた最初の弱教師付きcamouflaged object detection (cod)法を提案する。 そこで我々はまず,4,040個の画像と対応するスクリブルアノテーションを備えた,スクリブルベースカモフラージュオブジェクトデータセットを構築した。 データセットで使用されるスクリブルに注釈を付けるのに1画像につき10秒程度しかかからず、これはピクセル毎のアノテーションの360倍の速度です。 しかし、監視のためにscribbleアノテーションを直接使用するネットワークは、camouflagedオブジェクトの境界をローカライズすることができず、scribbleアノテーションは詳細のないオブジェクトの一次構造のみを記述するため、一貫性のない予測をする傾向がある。 この問題に対処するために、異なる画像に対する信頼性の高い整合性を実現するための信頼性の高いクロスビュー損失と、単一の予測マップ内の整合性を維持するためのソフトな内部ビュー損失の2つの部分からなる新しい整合性損失を提案する。 また,人間はカモフラージュ対象の境界付近のセグメンテーション領域に意味情報を用いるのが観察された。 そこで我々は,画像から直接抽出した視覚的特徴と,モデルが捉えた意味的に重要な特徴を含む特徴誘導損失を設計する。 さらに,構造情報や意味的関係を学習することで,カモフラージュ対象を検出する新しいネットワークを提案する。 実験の結果,本モデルは3つのcodベンチマークにおいて,平均で11.0%,s-measureで3.2%,e-measureで2.5%,加重f-measureで4.4%改善した。

Existing camouflaged object detection (COD) methods rely heavily on large-scale datasets with pixel-wise annotations. However, due to the ambiguous boundary, it is very time-consuming and labor-intensive to annotate camouflage objects pixel-wisely (which takes ~ 60 minutes per image). In this paper, we propose the first weakly-supervised camouflaged object detection (COD) method, using scribble annotations as supervision. To achieve this, we first construct a scribble-based camouflaged object dataset with 4,040 images and corresponding scribble annotations. It is worth noting that annotating the scribbles used in our dataset takes only ~ 10 seconds per image, which is 360 times faster than per-pixel annotations. However, the network directly using scribble annotations for supervision will fail to localize the boundary of camouflaged objects and tend to have inconsistent predictions since scribble annotations only describe the primary structure of objects without details. To tackle this problem, we propose a novel consistency loss composed of two parts: a reliable cross-view loss to attain reliable consistency over different images, and a soft inside-view loss to maintain consistency inside a single prediction map. Besides, we observe that humans use semantic information to segment regions near boundaries of camouflaged objects. Therefore, we design a feature-guided loss, which includes visual features directly extracted from images and semantically significant features captured by models. Moreover, we propose a novel network that detects camouflaged objects by scribble learning on structural information and semantic relations. Experimental results show that our model outperforms relevant state-of-the-art methods on three COD benchmarks with an average improvement of 11.0% on MAE, 3.2% on S-measure, 2.5% on E-measure and 4.4% on weighted F-measure.
翻訳日:2022-07-29 12:26:46 公開日:2022-07-28
# MLRIP:情報的事実知識と専門知識に基づく軍事言語表現モデルの事前学習

MLRIP: Pre-training a military language representation model with informative factual knowledge and professional knowledge base ( http://arxiv.org/abs/2207.13929v1 )

ライセンス: Link先を確認
Hui Li, Xuekang Yang, Xin Zhao, Lin Yu, Jiping Zheng and Wei Sun(参考訳) 事前学習された言語モデルに事前知識を組み込むことは、エンティティタイピングや関係抽出といった知識駆動型NLPタスクに有効であることが証明されている。 現在の事前学習手順は、通常、知識マスキング、知識融合、知識置換を用いて、外部知識をモデルに注入する。 しかし, 入力文に含まれる事実情報は十分に掘り下げられず, インジェクションの外部知識は厳密には確認されていない。 その結果、コンテキスト情報は十分に活用できず、余分なノイズが導入されるか、インジェクトされた知識の量が制限される。 そこで本稿では,ernie-baidu が提案するナレッジマスキング戦略を改良した mlrip を提案し,2段階のエンティティ置換戦略を提案する。 包括的な分析による大規模な実験は、軍事知識駆動NLPタスクにおけるBERTモデルよりもMLRIPの方が優れていることを示している。

Incorporating prior knowledge into pre-trained language models has proven to be effective for knowledge-driven NLP tasks, such as entity typing and relation extraction. Current pre-training procedures usually inject external knowledge into models by using knowledge masking, knowledge fusion and knowledge replacement. However, factual information contained in the input sentences have not been fully mined, and the external knowledge for injecting have not been strictly checked. As a result, the context information cannot be fully exploited and extra noise will be introduced or the amount of knowledge injected is limited. To address these issues, we propose MLRIP, which modifies the knowledge masking strategies proposed by ERNIE-Baidu, and introduce a two-stage entity replacement strategy. Extensive experiments with comprehensive analyses illustrate the superiority of MLRIP over BERT-based models in military knowledge-driven NLP tasks.
翻訳日:2022-07-29 12:23:06 公開日:2022-07-28
# 事前学習言語モデルの解釈可能性評価ベンチマーク

An Interpretability Evaluation Benchmark for Pre-trained Language Models ( http://arxiv.org/abs/2207.13948v1 )

ライセンス: Link先を確認
Yaozong Shen, Lijie Wang, Ying Chen, Xinyan Xiao, Jing Liu, Hua Wu(参考訳) 事前学習された言語モデル(lms)は多くのnlpタスクにおいて大きな改善をもたらしたが、lmsの機能の探求とそれらの予測の解釈に注目が集まっている。 しかしながら、既存の作業は通常、ダウンストリームタスクのある特定の機能にのみフォーカスする。 マスク付き単語予測性能と事前学習したLMの解釈可能性を直接評価するためのデータセットが不足している。 このギャップを埋めるために、英語と中国語の両方の注釈付きデータを提供する新しい評価ベンチマークを提案する。 複数の次元(文法、意味論、知識、推論、計算など)でLMの能力をテストする。 さらに、十分性とコンパクト性を満たす、注意深い注釈付きトークンレベルの有理性を提供する。 各元のインスタンスに対する摂動インスタンスを含み、摂動の下での有理的一貫性を、解釈可能性の観点からの忠実性の計量として利用する。 使用済みのlmsについて実験を行った。 以上の結果から,知識と計算の次元が極めて低いことが示唆された。 そして、すべての次元におけるそれらの妥当性は、特に理性が短い場合、満足できない。 さらに、我々が評価した事前学習されたlmsは、構文認識データでは堅牢ではない。 我々は、この評価ベンチマークを \url{http://xyz} でリリースする。

While pre-trained language models (LMs) have brought great improvements in many NLP tasks, there is increasing attention to explore capabilities of LMs and interpret their predictions. However, existing works usually focus only on a certain capability with some downstream tasks. There is a lack of datasets for directly evaluating the masked word prediction performance and the interpretability of pre-trained LMs. To fill in the gap, we propose a novel evaluation benchmark providing with both English and Chinese annotated data. It tests LMs abilities in multiple dimensions, i.e., grammar, semantics, knowledge, reasoning and computation. In addition, it provides carefully annotated token-level rationales that satisfy sufficiency and compactness. It contains perturbed instances for each original instance, so as to use the rationale consistency under perturbations as the metric for faithfulness, a perspective of interpretability. We conduct experiments on several widely-used pre-trained LMs. The results show that they perform very poorly on the dimensions of knowledge and computation. And their plausibility in all dimensions is far from satisfactory, especially when the rationale is short. In addition, the pre-trained LMs we evaluated are not robust on syntax-aware data. We will release this evaluation benchmark at \url{http://xyz}, and hope it can facilitate the research progress of pre-trained LMs.
翻訳日:2022-07-29 12:22:37 公開日:2022-07-28
# 効率的なトランスフォーマーのニューラルネットワークによる探索

Neural Architecture Search on Efficient Transformers and Beyond ( http://arxiv.org/abs/2207.13955v1 )

ライセンス: Link先を確認
Zexiang Liu, Dong Li, Kaiyue Lu, Zhen Qin, Weixuan Sun, Jiacheng Xu, Yiran Zhong(参考訳) 近年,ソフトマックスの注意による標準変換器の2次計算複雑性を低減するために,多数の効率的な変換器が提案されている。 しかし、そのほとんどは、特に効率的な注意のためにカスタマイズされたアーキテクチャを考慮せずに、Softmaxを効率的な注意機構に置き換えている。 本稿では,ソフトマックスアテンションのための手作りバニラトランスアーキテクチャは,効率的なトランスフォーマーには適さないかもしれないと論じる。 この問題に対処するために,ニューラルアーキテクチャサーチ(NAS)技術を用いた効率的なトランスフォーマーのための最適なアーキテクチャを見つけるための新しいフレームワークを提案する。 提案手法は一般的な機械翻訳および画像分類タスクで検証される。 効率の良い変圧器の最適アーキテクチャは、標準変圧器と比較して計算量が少ないが、一般的な計算精度は比較にならない。 ソフトマックス・アテンションと効率的なアテンションは、それぞれ独自の特徴を持つが、どちらも正確性と効率のバランスが取れないことを示している。 これはパフォーマンスの不均衡を減らすために、2つのタイプの注意を混ぜ合わせる動機になります。 既存のNASトランスフォーマーアプローチでよく用いられる検索空間の他に,NASアルゴリズムがアーキテクチャとともにアテンションの変種を自動的に検索することのできる新しい検索空間を提案する。 WMTの14 En-De と CIFAR-10 に関する大規模な実験により,検索されたアーキテクチャは,計算効率が著しく向上した標準変換器に匹敵する精度を維持していることが示された。

Recently, numerous efficient Transformers have been proposed to reduce the quadratic computational complexity of standard Transformers caused by the Softmax attention. However, most of them simply swap Softmax with an efficient attention mechanism without considering the customized architectures specially for the efficient attention. In this paper, we argue that the handcrafted vanilla Transformer architectures for Softmax attention may not be suitable for efficient Transformers. To address this issue, we propose a new framework to find optimal architectures for efficient Transformers with the neural architecture search (NAS) technique. The proposed method is validated on popular machine translation and image classification tasks. We observe that the optimal architecture of the efficient Transformer has the reduced computation compared with that of the standard Transformer, but the general accuracy is less comparable. It indicates that the Softmax attention and efficient attention have their own distinctions but neither of them can simultaneously balance the accuracy and efficiency well. This motivates us to mix the two types of attention to reduce the performance imbalance. Besides the search spaces that commonly used in existing NAS Transformer approaches, we propose a new search space that allows the NAS algorithm to automatically search the attention variants along with architectures. Extensive experiments on WMT' 14 En-De and CIFAR-10 demonstrate that our searched architecture maintains comparable accuracy to the standard Transformer with notably improved computational efficiency.
翻訳日:2022-07-29 12:22:11 公開日:2022-07-28
# 少ない音源を持つスロベニア語に対するシーケンス事前訓練の手順

Sequence to sequence pretraining for a less-resourced Slovenian language ( http://arxiv.org/abs/2207.13988v1 )

ライセンス: Link先を確認
Matej Ul\v{c}ar, Marko Robnik-\v{S}ikonja(参考訳) 大規模な事前学習型言語モデルは、最近自然言語処理の領域を征服した。 bertで導入された主要なマスキング言語モデリングの代替として、t5モデルは、より一般的なトレーニング目標、すなわち、マスキング言語モデルを含むが、機械翻訳、要約、オープンドメイン質問応答、テキスト単純化、対話システムなどのテキスト生成タスクに自然に適合するシーケンス変換のシーケンスを導入した。 T5モデルのモノリンガル変種は、多言語T5モデルが101言語をサポートするのに対して、十分なリソースを持つ言語に限られている。 対照的に,我々は2つの異なるサイズt5型シーケンスを訓練し,形態学的にリッチなスロベニア語のシーケンスモデルを構築し,それらの振る舞いを分析した。 分類タスクに関しては、SloT5モデルはモノリンガルなSlovene SloBERTaモデルより遅れているが、生成タスクには考慮されている。

Large pretrained language models have recently conquered the area of natural language processing. As an alternative to predominant masked language modelling introduced in BERT, the T5 model has introduced a more general training objective, namely sequence to sequence transformation, which includes masked language model but more naturally fits text generation tasks such as machine translation, summarization, open-domain question answering, text simplification, dialogue systems, etc. The monolingual variants of T5 models have been limited to well-resourced languages, while the massively multilingual T5 model supports 101 languages. In contrast, we trained two different sized T5-type sequence to sequence models for morphologically rich Slovene language with much less resources and analyzed their behavior. Concerning classification tasks, the SloT5 models mostly lag behind the monolingual Slovene SloBERTa model but are to be considered for the generative tasks.
翻訳日:2022-07-29 12:21:42 公開日:2022-07-28
# 言語モデルの「実」予測に対するデータ統計量の因果効果の測定

Measuring Causal Effects of Data Statistics on Language Model's `Factual' Predictions ( http://arxiv.org/abs/2207.14251v1 )

ライセンス: Link先を確認
Yanai Elazar, Nora Kassner, Shauli Ravfogel, Amir Feder, Abhilasha Ravichander, Marius Mosbach, Yonatan Belinkov, Hinrich Sch\"utze, Yoav Goldberg(参考訳) 大量のトレーニングデータが、最先端のNLPモデルの高性能化の大きな理由の1つである。 しかし、トレーニングデータの何がモデルに特定の予測をさせるのか? 私たちは、トレーニングデータが予測にどのように影響するかを、因果フレームワークを通じて記述する言語を提供することで、この質問に答えたいと考えています。 重要なのは、フレームワークが高価なモデルを再トレーニングする必要を回避し、観測データのみに基づいて因果効果を推定できることです。 事前学習された言語モデル(PLM)から事実知識を抽出する問題に対処し、共起数などの単純なデータ統計に焦点をあて、これらの統計がPLMの予測に影響を及ぼすことを示す。 本研究の因果関係は,NLPモデルを理解する上で,データセットの学習の重要性と因果関係の利点を示すものである。

Large amounts of training data are one of the major reasons for the high performance of state-of-the-art NLP models. But what exactly in the training data causes a model to make a certain prediction? We seek to answer this question by providing a language for describing how training data influences predictions, through a causal framework. Importantly, our framework bypasses the need to retrain expensive models and allows us to estimate causal effects based on observational data alone. Addressing the problem of extracting factual knowledge from pretrained language models (PLMs), we focus on simple data statistics such as co-occurrence counts and show that these statistics do influence the predictions of PLMs, suggesting that such models rely on shallow heuristics. Our causal framework and our results demonstrate the importance of studying datasets and the benefits of causality for understanding NLP models.
翻訳日:2022-07-29 12:21:25 公開日:2022-07-28
# 中間層における言語モデルの効率的な訓練

Efficient Training of Language Models to Fill in the Middle ( http://arxiv.org/abs/2207.14255v1 )

ライセンス: Link先を確認
Mohammad Bavarian, Heewoo Jun, Nikolas Tezak, John Schulman, Christine McLeavey, Jerry Tworek, Mark Chen(参考訳) 自動回帰型言語モデルは、文書の中央から最後にテキストのスパンを移動させるだけで、データセットに簡単な変換を適用することで、テキストをインフィルする学習ができることを示します。 このデータ拡張は近年大きな関心を集めているものの、この方法で変換された大量のデータを持つトレーニングモデルが、様々なスケールでのパープレキシティやサンプリング評価によって測定されるように、元の左から右への生成能力を損なうことはないという広範な証拠を提供する。 FIM(Fi-in-the-middle)におけるトレーニングモデルの有用性,簡易性,効率性を考えると,将来の自己回帰言語モデルはデフォルトでFIMでトレーニングされることが示唆される。 この目的のために,データ変換周波数,変換構造,インフィルスパンの選択など,キーハイパーパラメータ上で一連のアブレーションを実行する。 これらのアブレーションは、強力なデフォルト設定とベストプラクティスを規定し、fimモデルのトレーニングに使用します。 私たちは、apiのベストプラクティスをトレーニングした最高のインフィルメントモデルをリリースし、将来の研究を支援するためにインフィルメントベンチマークをリリースしました。

We show that autoregressive language models can learn to infill text after we apply a straightforward transformation to the dataset, which simply moves a span of text from the middle of a document to its end. While this data augmentation has garnered much interest in recent years, we provide extensive evidence that training models with a large fraction of data transformed in this way does not harm the original left-to-right generative capability, as measured by perplexity and sampling evaluations across a wide range of scales. Given the usefulness, simplicity, and efficiency of training models to fill-in-the-middle (FIM), we suggest that future autoregressive language models be trained with FIM by default. To this end, we run a series of ablations on key hyperparameters, such as the data transformation frequency, the structure of the transformation, and the method of selecting the infill span. We use these ablations to prescribe strong default settings and best practices to train FIM models. We have released our best infilling model trained with best practices in our API, and release our infilling benchmarks to aid future research.
翻訳日:2022-07-29 12:21:09 公開日:2022-07-28
# 新規反応の難易度測定

Measuring Difficulty of Novelty Reaction ( http://arxiv.org/abs/2207.13857v1 )

ライセンス: Link先を確認
Ekaterina Nikonova, Cheng Xue, Vimukthini Pinto, Chathura Gamage, Peng Zhang, Jochen Renz(参考訳) 現在のAIシステムは、根底にある世界が多かれ少なかれ同じであるという仮定で、近世界の問題を解決するように設計されている。 しかし、現実世界の問題を扱う場合、そのような仮定は突然無効になり、予期せぬ変化が起こる可能性がある。 AIを利用したシステムを現実世界に効果的に展開するためには、AIシステムはオープンワールドのノベルティに迅速に対処できる必要がある。 必然的に、オープンワールドのノベルティを扱うことは、ノベルティの難しさの重要な問題を引き起こす。 ある新しさが他よりも扱いにくいかどうかを知ることは、研究者がシステムを体系的に訓練するのに役立つ。 さらに、新規で堅牢なAIシステムの性能の測定にも役立てることができる。 本稿では,新規性導入後の既知の課題を実行することの比較的困難な課題として,新規性反応の難しさを定義することを提案する。 本稿では,難易度を近似する普遍的手法を提案する。 本稿では,本手法の難易度を近似し,新規性に対処するAIエージェントの評価結果とどのように一致しているかを示す。

Current AI systems are designed to solve close-world problems with the assumption that the underlying world is remaining more or less the same. However, when dealing with real-world problems such assumptions can be invalid as sudden and unexpected changes can occur. To effectively deploy AI-powered systems in the real world, AI systems should be able to deal with open-world novelty quickly. Inevitably, dealing with open-world novelty raises an important question of novelty difficulty. Knowing whether one novelty is harder to deal with than another, can help researchers to train their systems systematically. In addition, it can also serve as a measurement of the performance of novelty robust AI systems. In this paper, we propose to define the novelty reaction difficulty as a relative difficulty of performing the known task after the introduction of the novelty. We propose a universal method that can be applied to approximate the difficulty. We present the approximations of the difficulty using our method and show how it aligns with the results of the evaluation of AI agents designed to deal with novelty.
翻訳日:2022-07-29 12:20:48 公開日:2022-07-28
# バイオメディカルオントロジーにおける構文モデル構造の研究

A Survey of Syntactic Modelling Structures in Biomedical Ontologies ( http://arxiv.org/abs/2207.14119v1 )

ライセンス: Link先を確認
Christian Kindermann and Martin G. Skj{\ae}veland(参考訳) バイオメディカルドメインにおけるセマンティックテクノロジーの大規模取り込みにもかかわらず、公開オントロジーにおける一般的なモデリングの実践についてはほとんど知られていない。 OWLオントロジーはしばしば、基礎となる設計の不透明さを残した公理の集合の粗い形式でのみ発行される。 しかしながら、原理的かつ体系的なオントロジー発展ライフサイクルは、オントロジーの創発的な構文構造の規則性に反映される可能性が高い。 この創発的構造を理解するために,公理と公理の集合の正則性を特定し解析するために,構文指向のアプローチを採用する逆エンジニアリングオントロジーを提案する。 我々は、OWL公理とクラスフレームの構文モデリングトレンドと共通プラクティスの観点から、BioPortalを調査した。 以上のことから, 生物医学的オントロジーは, フクロウのコンストラクタが複雑な方法で組み合わされていない単純な構文構造のみを共有していることが示唆された。 そのような単純な構造は、与えられたオントロジーにおいて公理のかなりの割合を占めることが多いが、多くのオントロジーは、オントロジー全体では一般的でないより複雑な構文構造をも含んでいる。

Despite the large-scale uptake of semantic technologies in the biomedical domain, little is known about common modelling practices in published ontologies. OWL ontologies are often published only in the crude form of sets of axioms leaving the underlying design opaque. However, a principled and systematic ontology development life cycle is likely to be reflected in regularities of the ontology's emergent syntactic structure. To develop an understanding of this emergent structure, we propose to reverse-engineer ontologies taking a syntax-directed approach for identifying and analysing regularities for axioms and sets of axioms. We survey BioPortal in terms of syntactic modelling trends and common practices for OWL axioms and class frames. Our findings suggest that biomedical ontologies only share simple syntactic structures in which OWL constructors are not deeply nested or combined in a complex manner. While such simple structures often account for large proportions of axioms in a given ontology, many ontologies also contain non-trivial amounts of more complex syntactic structures that are not common across ontologies.
翻訳日:2022-07-29 12:20:32 公開日:2022-07-28
# 直交勾配降下と再帰最小二乗法による一パス学習

One-Pass Learning via Bridging Orthogonal Gradient Descent and Recursive Least-Squares ( http://arxiv.org/abs/2207.13853v1 )

ライセンス: Link先を確認
Youngjae Min, Kwangjun Ahn, Navid Azizan(参考訳) ディープニューラルネットワークは、さまざまな領域で最先端のパフォーマンスを実現することができるが、トレーニングは通常、データセットに多くのパスを繰り返す必要がある。 しかし、計算とメモリの制約と潜在的なプライバシー上の懸念から、データがストリームに届く多くの現実のシナリオでは、すべてのデータの保存とアクセスは現実的ではない。 本稿では,従来のデータポイントを再学習することなく,逐次到着するデータに対してモデルを訓練するワンパス学習の問題点について考察する。 過パラメータモデルの利用の増加に動機づけられて,1パス学習のための直交再帰的適合(orfit)と呼ばれるアルゴリズムを開発した。 これにより、適応フィルタリングと機械学習の2つの明らかに異なるアルゴリズム、すなわち再帰最小二乗法(RLS)アルゴリズムと直交勾配勾配(OGD)アルゴリズムを橋渡しする。 このアルゴリズムは、インクリメンタル主成分分析(ipca)を介してストリーミングデータの構造を活用し、メモリを効率的に利用する。 さらに、過パラメータ化線形モデルに対して、我々のアルゴリズムによって得られたパラメータベクトルは、標準マルチパス設定において確率勾配降下(SGD)が収束することを示す。 最後に,高パラメータモデルの非線形設定に結果を一般化し,深層学習に寄与する。 本実験では,提案手法の有効性をベースラインと比較した。

While deep neural networks are capable of achieving state-of-the-art performance in various domains, their training typically requires iterating for many passes over the dataset. However, due to computational and memory constraints and potential privacy concerns, storing and accessing all the data is impractical in many real-world scenarios where the data arrives in a stream. In this paper, we investigate the problem of one-pass learning, in which a model is trained on sequentially arriving data without retraining on previous datapoints. Motivated by the increasing use of overparameterized models, we develop Orthogonal Recursive Fitting (ORFit), an algorithm for one-pass learning which seeks to perfectly fit every new datapoint while changing the parameters in a direction that causes the least change to the predictions on previous datapoints. By doing so, we bridge two seemingly distinct algorithms in adaptive filtering and machine learning, namely the recursive least-squares (RLS) algorithm and orthogonal gradient descent (OGD). Our algorithm uses the memory efficiently by exploiting the structure of the streaming data via an incremental principal component analysis (IPCA). Further, we show that, for overparameterized linear models, the parameter vector obtained by our algorithm is what stochastic gradient descent (SGD) would converge to in the standard multi-pass setting. Finally, we generalize the results to the nonlinear setting for highly overparameterized models, relevant for deep learning. Our experiments show the effectiveness of the proposed method compared to the baselines.
翻訳日:2022-07-29 12:17:55 公開日:2022-07-28
# MarkerMap: 単一細胞研究のための非線形マーカー選択

MarkerMap: nonlinear marker selection for single-cell studies ( http://arxiv.org/abs/2207.14106v1 )

ライセンス: Link先を確認
Nabeel Sarwar, Wilson Gregory, George A Kevrekidis, Soledad Villar, and Bianca Dumitrascu(参考訳) 単細胞rna-seqデータにより、細胞型の違いを生物的文脈によって定量化することができる。 しかし、この可変性を説明するゲノム特徴のごく一部をピンポイントすることは、不定義であり、計算的に難解である。 本稿では,細胞型の起源を最大限に把握し,全転写産物の再構築を可能にする最小遺伝子セットを選択するための生成モデルであるmarkermapを紹介する。 markermapは、特定の細胞型集団を特定するための教師付きマーカー選択と、遺伝子発現インプテーションと再構成を目的とした教師なしマーカー選択の両方のためのスケーラブルなフレームワークを提供する。 我々は,markmarkmapの実際の単一細胞遺伝子発現データセットに対する競合性能をベンチマークした。 MarkerMapは、単細胞研究における解釈可能性を高めるための説明可能な機械学習技術の開発を目的としたコミュニティリソースとして、pipインストール可能なパッケージとして利用できる。

Single-cell RNA-seq data allow the quantification of cell type differences across a growing set of biological contexts. However, pinpointing a small subset of genomic features explaining this variability can be ill-defined and computationally intractable. Here we introduce MarkerMap, a generative model for selecting minimal gene sets which are maximally informative of cell type origin and enable whole transcriptome reconstruction. MarkerMap provides a scalable framework for both supervised marker selection, aimed at identifying specific cell type populations, and unsupervised marker selection, aimed at gene expression imputation and reconstruction. We benchmark MarkerMap's competitive performance against previously published approaches on real single cell gene expression data sets. MarkerMap is available as a pip installable package, as a community resource aimed at developing explainable machine learning techniques for enhancing interpretability in single-cell studies.
翻訳日:2022-07-29 12:17:26 公開日:2022-07-28
# 新しい境界線ネットワークによる頸動脈超音波の血管壁の抽出

Extraction of Vascular Wall in Carotid Ultrasound via a Novel Boundary-Delineation Network ( http://arxiv.org/abs/2207.13868v1 )

ライセンス: Link先を確認
Qinghua Huang, Lizhi Jia, Guanqing Ren, Xiaoyi Wang, Chunying Liu(参考訳) 超音波画像診断は血管病変の診断において重要な役割を果たす。 血管壁の正確なセグメンテーションは,血管疾患の予防,診断,治療に重要である。 しかし,既存の術式では血管壁境界が不正確な。 不連続な血管壁の境界と暗い境界にセグメンテーションエラーが発生する。 これらの問題を解決するために,新しい境界線ネットワーク(BDNet)を提案する。 境界修正モジュールを用いて血管壁の境界線を再定義し, 正確な境界位置を求める。 ダークバウンダリと不連続バウンダリの問題を解決するため,マルチスケール特徴と異なる受容場特徴を抽出・融合する特徴抽出モジュールを設計した。 新しい損失関数を使ってモデルを最適化する。 モデル最適化におけるクラス不均衡の干渉を防止し、より微細で滑らかな境界を得る。 最後に,臨床応用を促進するために,軽量なモデルの設計を行う。 実験の結果,本モデルが最適セグメンテーション結果を達成し,既存モデルと比較してメモリ消費を大幅に削減できることが判明した。

Ultrasound imaging plays an important role in the diagnosis of vascular lesions. Accurate segmentation of the vascular wall is important for the prevention, diagnosis and treatment of vascular diseases. However, existing methods have inaccurate localization of the vascular wall boundary. Segmentation errors occur in discontinuous vascular wall boundaries and dark boundaries. To overcome these problems, we propose a new boundary-delineation network (BDNet). We use the boundary refinement module to re-delineate the boundary of the vascular wall to obtain the correct boundary location. We designed the feature extraction module to extract and fuse multi-scale features and different receptive field features to solve the problem of dark boundaries and discontinuous boundaries. We use a new loss function to optimize the model. The interference of class imbalance on model optimization is prevented to obtain finer and smoother boundaries. Finally, to facilitate clinical applications, we design the model to be lightweight. Experimental results show that our model achieves the best segmentation results and significantly reduces memory consumption compared to existing models for the dataset.
翻訳日:2022-07-29 12:16:13 公開日:2022-07-28
# 構造保存相補性注意による実像復元

Real Image Restoration via Structure-preserving Complementarity Attention ( http://arxiv.org/abs/2207.13879v1 )

ライセンス: Link先を確認
Yuanfan Zhang, Gen Li, Lei Sun(参考訳) 畳み込みニューラルネットワークは、大規模データから一般化可能な画像の事前学習に有効であるため、これらのモデルは画像の雑音化タスクで広く使われている。 しかし、計算複雑性は複雑なモデルと同様に劇的に増加する。 本稿では,高密度モジュールとスパースモジュールを備えた軽量補足モジュールを提案する。これは,高効率な軽量アーキテクチャを構築するために,高密度かつスパースな特徴を協調的にマイニングすることができる。 さらに, 劣化に伴う詳細の損失を低減するため, 勾配型構造保存分岐を構築した。 We utilize gradient-based branches to obtain additional structural priors for denoising, and make the model pay more attention to image geometric details through gradient loss optimization.Based on the above, we propose an efficiently Unet structured network with dual branch, the visual results show that can effectively preserve the structural details of the original image, we evaluate benchmarks including SIDD and DND, where SCANet achieves state-of-the-art performance in PSNR and SSIM while significantly reducing computational cost.

Since convolutional neural networks perform well in learning generalizable image priors from large-scale data, these models have been widely used in image denoising tasks. However, the computational complexity increases dramatically as well on complex model. In this paper, We propose a novel lightweight Complementary Attention Module, which includes a density module and a sparse module, which can cooperatively mine dense and sparse features for feature complementary learning to build an efficient lightweight architecture. Moreover, to reduce the loss of details caused by denoising, this paper constructs a gradient-based structure-preserving branch. We utilize gradient-based branches to obtain additional structural priors for denoising, and make the model pay more attention to image geometric details through gradient loss optimization.Based on the above, we propose an efficiently Unet structured network with dual branch, the visual results show that can effectively preserve the structural details of the original image, we evaluate benchmarks including SIDD and DND, where SCANet achieves state-of-the-art performance in PSNR and SSIM while significantly reducing computational cost.
翻訳日:2022-07-29 12:15:58 公開日:2022-07-28
# rha-net:残留ブロックと舗装き裂分割のためのハイブリッド注意機構を備えたエンコーダ・デコーダネットワーク

RHA-Net: An Encoder-Decoder Network with Residual Blocks and Hybrid Attention Mechanisms for Pavement Crack Segmentation ( http://arxiv.org/abs/2207.14166v1 )

ライセンス: Link先を確認
Guijie Zhu, Zhun Fan, Jiacheng Liu, Duan Yuan, Peili Ma, Meihua Wang, Weihua Sheng, Kelvin C. P. Wang(参考訳) 舗装面データの取得と評価は, 舗装条件評価に不可欠な役割を担っている。 本稿では, RHA-Net と呼ばれる自動舗装ひび割れセグメンテーションのための効率的かつ効率的なエンドツーエンドネットワークを提案し, 舗装ひび割れセグメンテーションの精度を向上する。 RHA-Netは、残余ブロック(ResBlocks)とハイブリッドアテンションブロックをエンコーダ・デコーダアーキテクチャに統合して構築されている。 ResBlocksは、RHA-Netの高レベルな抽象機能を抽出する能力を改善するために使用される。 ハイブリッドアテンションブロックは、低レベル機能と高レベル機能の両方を融合して、モデルが正しいチャネルと亀裂領域に集中できるように設計されており、RHA-Netの特徴提示能力が改善されている。 自設計の移動ロボットが収集した789枚の舗装クラック画像を含む画像データセットを構築し、提案モデルを構築し評価する。 他の最先端ネットワークと比較して,提案モデルの性能は向上し,残差ブロックの追加機能やハイブリッド注意機構は包括的アブレーション研究で検証された。 さらに、奥行き分離可能な畳み込みを導入して生成された軽量バージョンは、U-Netパラメータの1/30でより優れた性能と処理速度を実現する。 開発したシステムは、組み込みデバイスJetson TX2(25 FPS)上で、舗装クラックをリアルタイムで分割することができる。 リアルタイム実験で撮影されたビデオはhttps://youtu.be/3XIogk0fiG4で公開されている。

The acquisition and evaluation of pavement surface data play an essential role in pavement condition evaluation. In this paper, an efficient and effective end-to-end network for automatic pavement crack segmentation, called RHA-Net, is proposed to improve the pavement crack segmentation accuracy. The RHA-Net is built by integrating residual blocks (ResBlocks) and hybrid attention blocks into the encoder-decoder architecture. The ResBlocks are used to improve the ability of RHA-Net to extract high-level abstract features. The hybrid attention blocks are designed to fuse both low-level features and high-level features to help the model focus on correct channels and areas of cracks, thereby improving the feature presentation ability of RHA-Net. An image data set containing 789 pavement crack images collected by a self-designed mobile robot is constructed and used for training and evaluating the proposed model. Compared with other state-of-the-art networks, the proposed model achieves better performance and the functionalities of adding residual blocks and hybrid attention mechanisms are validated in a comprehensive ablation study. Additionally, a light-weighted version of the model generated by introducing depthwise separable convolution achieves better a performance and a much faster processing speed with 1/30 of the number of U-Net parameters. The developed system can segment pavement crack in real-time on an embedded device Jetson TX2 (25 FPS). The video taken in real-time experiments is released at https://youtu.be/3XIogk0fiG4.
翻訳日:2022-07-29 12:15:42 公開日:2022-07-28
# 最悪の格子問題から半空間を学習する際の硬さ

Hardness of Agnostically Learning Halfspaces from Worst-Case Lattice Problems ( http://arxiv.org/abs/2207.14030v1 )

ライセンス: Link先を確認
Stefan Tiegel(参考訳) 例えば多項式因子内の最短ベクトルの近似など,最悪の場合の格子問題に基づく非依存モデルにおいて,不適切に学習する半空間の難しさを示す。 特に、この仮定の下では、最小の誤分類誤差が$\delta$ である場合でも、半空間ではなく任意の二項仮説を出力し、$\frac 1 2 - \epsilon$よりも誤分類エラーを成立させる効率的なアルゴリズムは存在しないことを示す。 ここで、$\epsilon$ は次元内の任意の多項式の逆数よりも小さく、$\delta$ は $\mathrm{exp}\left(-\omega\left(\log^{1-c}(d)\right)\right)$ である。 この問題の以前の硬さ [daniely16] は、平均ケース複雑性の仮定、特に、フェイジのランダムな3sat仮説の変種に基づいている。 私たちの仕事は、最悪の場合の複雑性の仮定に基づいて、この問題の最初の困難さを与えます。 これは、最悪の格子問題に基づいて、よく分離されたガウス混合を学習する難しさを示す最近の一連の研究から着想を得たものである。

We show hardness of improperly learning halfspaces in the agnostic model based on worst-case lattice problems, e.g., approximating shortest vectors within polynomial factors. In particular, we show that under this assumption there is no efficient algorithm that outputs any binary hypothesis, not necessarily a halfspace, achieving misclassfication error better than $\frac 1 2 - \epsilon$ even if the optimal misclassification error is as small is as small as $\delta$. Here, $\epsilon$ can be smaller than the inverse of any polynomial in the dimension and $\delta$ as small as $\mathrm{exp}\left(-\Omega\left(\log^{1-c}(d)\right)\right)$, where $0 < c < 1$ is an arbitrary constant and $d$ is the dimension. Previous hardness results [Daniely16] of this problem were based on average-case complexity assumptions, specifically, variants of Feige's random 3SAT hypothesis. Our work gives the first hardness for this problem based on a worst-case complexity assumption. It is inspired by a sequence of recent works showing hardness of learning well-separated Gaussian mixtures based on worst-case lattice problems.
翻訳日:2022-07-29 12:15:11 公開日:2022-07-28
# 流体乱流のエンサンブルのトポロジー解析 -実験的研究-

Topological Analysis of Ensembles of Hydrodynamic Turbulent Flows -- An Experimental Study ( http://arxiv.org/abs/2207.14080v1 )

ライセンス: Link先を確認
Florent Nauleau, Fabien Vivodtzev, Thibault Bridel-Bertomeu, Heloise Beaugendre, Julien Tierny(参考訳) 本稿では,乱流の定量的比較のための位相データ解析(tda)の適合性に関する総合的な実験的検討を行う。 具体的には,5つの数値計算器のパラメータ空間の粗いサンプリングによって生成される180個のアンサンブル部材のトポロジカル表現に対して,流れエントロフィの最大値の持続図(確立された渦度指標)を用いた。 ドメインの専門家による5つの主要な仮説を報告し、異なる解法構成によって生成されたフローの変動性に対する彼らの期待について述べる。 上記の仮説の妥当性を評価するための3つの評価プロトコルを2つの比較尺度で提示する。 (i)科学的イメージングで用いられる標準距離(l2基準) (ii)永続図の間の確立された位相距離(l2-wasserstein計量)。 入力アンサンブルに関する広範囲実験 : 位相距離の優越性を示す (ii)渦の配置により、ドメインの専門家が類似すると思われる流れに近づいたことを報告すること。 本研究によって得られた知見は, 乱流の表現および比較にTDAが適していることを示す実験的な証拠となり, 今後の研究におけるその利用に対する流動力学コミュニティの信頼感をもたらす。 また、我々のフローデータおよび評価プロトコルは、TDAコミュニティに、さらなるトポロジカル距離の評価と設計のためのアプリケーション承認ベンチマークを提供する。

This application paper presents a comprehensive experimental evaluation of the suitability of Topological Data Analysis (TDA) for the quantitative comparison of turbulent flows. Specifically, our study documents the usage of the persistence diagram of the maxima of flow enstrophy (an established vorticity indicator), for the topological representation of 180 ensemble members, generated by a coarse sampling of the parameter space of five numerical solvers. We document five main hypotheses reported by domain experts, describing their expectations regarding the variability of the flows generated by the distinct solver configurations. We contribute three evaluation protocols to assess the validation of the above hypotheses by two comparison measures: (i) a standard distance used in scientific imaging (the L2 norm) and (ii) an established topological distance between persistence diagrams (the L2-Wasserstein metric). Extensive experiments on the input ensemble demonstrate the superiority of the topological distance (ii) to report as close to each other flows which are expected to be similar by domain experts, due to the configuration of their vortices. Overall, the insights reported by our study bring an experimental evidence of the suitability of TDA for representing and comparing turbulent flows, thereby providing to the fluid dynamics community confidence for its usage in future work. Also, our flow data and evaluation protocols provide to the TDA community an application-approved benchmark for the evaluation and design of further topological distances.
翻訳日:2022-07-29 12:14:46 公開日:2022-07-28
# 多次元ランダム部分集合和問題について

On the Multidimensional Random Subset Sum Problem ( http://arxiv.org/abs/2207.13944v1 )

ライセンス: Link先を確認
Luca Becchetti (DIAG), Arthur Carvalho Walraven da Cuhna (COATI), Andrea Clementi, Francesco d'Amore (COATI), Hicham Lesfari (COATI), Emanuele Natale (COATI), Luca Trevisan(参考訳) n$ i.i.d. 確率変数 $x_1, ..., x_n$ が与えられたランダム部分集合和問題では、任意の点 $z \in [-1,1]$ を適切な部分集合 $x_{i_1(z)}, ..., x_{i_s(z)}$ の和として近似し、エラー $\varepsilon$ にしたい。 単純な主張にもかかわらず、この問題は理論計算機科学と統計力学の両方に根本的な関心がある。 最近では、ニューラルネットワークの理論におけるその意味について、新たな注目を集めている。 この問題の明らかな多次元一般化は、すべての点 $\mathbf{z} \in [-1,1]^d$ を近似することを目的として、$n$ i.d.\ $d$-dimensionalランダムベクトルを考えることである。 より驚くべきことに、Luekerの1998年の証明の後、一次元の設定において、$n=O(\log \frac 1\varepsilon)$サンプルは高い確率で近似性を保証するが、上記の一般化を達成するにはほとんど進歩していない。 この研究において、$d$次元において、$n = O(d^3\log \frac 1\varepsilon \cdot (\log \frac 1\varepsilon + \log d))$サンプルが高い確率で保持できる近似特性に十分であることを示す。 この結果の潜在的関心を強調するアプリケーションとして、最近提案されたニューラルネットワークモデルが 'emph{Universality} を示すことを証明している。

In the Random Subset Sum Problem, given $n$ i.i.d. random variables $X_1, ..., X_n$, we wish to approximate any point $z \in [-1,1]$ as the sum of a suitable subset $X_{i_1(z)}, ..., X_{i_s(z)}$ of them, up to error $\varepsilon$. Despite its simple statement, this problem is of fundamental interest to both theoretical computer science and statistical mechanics. More recently, it gained renewed attention for its implications in the theory of Artificial Neural Networks. An obvious multidimensional generalisation of the problem is to consider $n$ i.i.d.\ $d$-dimensional random vectors, with the objective of approximating every point $\mathbf{z} \in [-1,1]^d$. Rather surprisingly, after Lueker's 1998 proof that, in the one-dimensional setting, $n=O(\log \frac 1\varepsilon)$ samples guarantee the approximation property with high probability, little progress has been made on achieving the above generalisation. In this work, we prove that, in $d$ dimensions, $n = O(d^3\log \frac 1\varepsilon \cdot (\log \frac 1\varepsilon + \log d))$ samples suffice for the approximation property to hold with high probability. As an application highlighting the potential interest of this result, we prove that a recently proposed neural network model exhibits \emph{universality}: with high probability, the model can approximate any neural network within a polynomial overhead in the number of parameters.
翻訳日:2022-07-29 12:10:59 公開日:2022-07-28
# トラベリングティーフ問題に対する共進化的多様性最適化

Co-Evolutionary Diversity Optimisation for the Traveling Thief Problem ( http://arxiv.org/abs/2207.14036v1 )

ライセンス: Link先を確認
Adel Nikfarjam, Aneta Neumann, Jakob Bossek, Frank Neumann(参考訳) 近年、与えられた最適化問題に対する高品質な多様な解の集合を生成する様々な進化的計算手法が開発されている。 多くの研究が多様性を考慮し 1)行動空間(品質多様性)におけるニッチを探求する手段として 2) 解の構造的差異を増大させる(進化的多様性最適化)。 本研究では,多成分移動泥棒問題に対する2つの空間を同時に探索する共進化アルゴリズムを提案する。 その結果,共進化的アルゴリズムの多様性は,文献の基盤となる進化的多様性アルゴリズムと比較して著しく向上した。

Recently different evolutionary computation approaches have been developed that generate sets of high quality diverse solutions for a given optimisation problem. Many studies have considered diversity 1) as a mean to explore niches in behavioural space (quality diversity) or 2) to increase the structural differences of solutions (evolutionary diversity optimisation). In this study, we introduce a co-evolutionary algorithm to simultaneously explore the two spaces for the multi-component traveling thief problem. The results show the capability of the co-evolutionary algorithm to achieve significantly higher diversity compared to the baseline evolutionary diversity algorithms from the the literature.
翻訳日:2022-07-29 12:10:21 公開日:2022-07-28
# Knapsack問題に対する品質多様性アルゴリズムの解析

Analysis of Quality Diversity Algorithms for the Knapsack Problem ( http://arxiv.org/abs/2207.14037v1 )

ライセンス: Link先を確認
Adel Nikfarjam, Anh Viet Do, Frank Neumann(参考訳) 品質多様性(qd)アルゴリズムは、ロボット工学、ゲーム、組合せ最適化といった分野の問題に対処する際に非常に成功することが示されている。 彼らは、基盤となる問題のいわゆる行動空間の異なる領域に対するソリューションの品質を最大化することを目指している。 本稿では,knapsack問題における動的プログラミング動作のシミュレーションにQDパラダイムを適用し,QDアルゴリズムの最初の実行時解析を行う。 予測された擬似多項式時間内に最適解を計算できることを示し、完全な多項式ランダム化近似スキーム(FPRAS)につながるパラメータ設定を明らかにする。 実験により,古典的なベンチマークセットに対する様々なアプローチを,行動空間に構築されたソリューションと,最適解を得るために必要なランタイムの観点から評価した。

Quality diversity (QD) algorithms have been shown to be very successful when dealing with problems in areas such as robotics, games and combinatorial optimization. They aim to maximize the quality of solutions for different regions of the so-called behavioural space of the underlying problem. In this paper, we apply the QD paradigm to simulate dynamic programming behaviours on knapsack problem, and provide a first runtime analysis of QD algorithms. We show that they are able to compute an optimal solution within expected pseudo-polynomial time, and reveal parameter settings that lead to a fully polynomial randomised approximation scheme (FPRAS). Our experimental investigations evaluate the different approaches on classical benchmark sets in terms of solutions constructed in the behavioural space as well as the runtime needed to obtain an optimal solution.
翻訳日:2022-07-29 12:10:13 公開日:2022-07-28
# 進化的多様性最適化を用いた患者適応スケジューリング問題の高精度解法

Computing High-Quality Solutions for the Patient Admission Scheduling Problem using Evolutionary Diversity Optimisation ( http://arxiv.org/abs/2207.14112v1 )

ライセンス: Link先を確認
Adel Nikfarjam, Amirhossein Moosavi, Aneta Neumann, and Frank Neumann(参考訳) 一連のソリューションの多様化は、進化計算コミュニティにおいてホットな研究トピックとなっている。 様々な高品質なソリューションセットの計算や不完全なモデリングに対する堅牢さの獲得など、最適化問題にいくつかの点で有益であることが証明されている。 文献の中ではじめて、実世界の組合せ問題、すなわち患者受け入れスケジューリングに進化の多様性の最適化を適用する。 我々は,各解の質を考慮した一連の解において,構造的多様性を達成するための進化的アルゴリズムを提案する。 また,多様性の最大化に偏った突然変異演算子を導入する。 最後に,上記の問題に対する多様性の重要性をシミュレーションにより示す。

Diversification in a set of solutions has become a hot research topic in the evolutionary computation community. It has been proven beneficial for optimisation problems in several ways, such as computing a diverse set of high-quality solutions and obtaining robustness against imperfect modeling. For the first time in the literature, we adapt the evolutionary diversity optimisation for a real-world combinatorial problem, namely patient admission scheduling. We introduce an evolutionary algorithm to achieve structural diversity in a set of solutions subjected to the quality of each solution. We also introduce a mutation operator biased towards diversity maximisation. Finally, we demonstrate the importance of diversity for the aforementioned problem through a simulation.
翻訳日:2022-07-29 12:10:00 公開日:2022-07-28
# HelixFold-Single:タンパク質言語モデルを用いたMSAフリータンパク質構造予測

HelixFold-Single: MSA-free Protein Structure Prediction by Using Protein Language Model as an Alternative ( http://arxiv.org/abs/2207.13921v1 )

ライセンス: Link先を確認
Xiaomin Fang, Fan Wang, Lihang Liu, Jingzhou He, Dayong Lin, Yingfei Xiang, Xiaonan Zhang, Hua Wu, Hui Li, Le Song(参考訳) AlphaFold2のようなAIベースのタンパク質構造予測パイプラインは、ほぼ実験的な精度を達成した。 これらの高度なパイプラインは主に、ホモロジーシーケンスから共進化情報を学ぶための入力として多重シーケンスアライメント(MSA)とテンプレートに依存している。 それでも、タンパク質データベースからMSAやテンプレートを検索するのには時間がかかる。 そこで本研究では,タンパク質の一次配列のみを用いて,高速タンパク質構造予測の限界を探究する。 HelixFold-Singleは、大規模なタンパク質言語モデルとAlphaFold2の優れた幾何学的学習能力を組み合わせるために提案されている。 提案手法であるhelixfold-singleは,まず,msaの代替手段として使用される,数千万のプライマリシーケンスを用いた大規模タンパク質言語モデル (plm) を事前学習する。 そして、プリトレーニングされたplmとαfold2の必須成分を組み合わせることで、一次配列のみから原子の3d座標を予測するエンドツーエンドの微分可能モデルを得る。 HelixFold-Single はデータセット CASP14 と CAMEO で検証されており、大きなホモロジー族を持つターゲット上の MSA ベースの手法と競合する精度を実現している。 さらに、HelixFold-Singleはタンパク質構造予測の主流パイプラインよりもはるかに少ない時間を消費し、多くの予測を必要とするタスクにおいてその可能性を示す。 HelixFold-Singleのコードはhttps://github.com/PaddlePaddle/PaddleHelix/tree/dev/apps/oprotein_folding/helixfold-singleで利用可能です。

AI-based protein structure prediction pipelines, such as AlphaFold2, have achieved near-experimental accuracy. These advanced pipelines mainly rely on Multiple Sequence Alignments (MSAs) and templates as inputs to learn the co-evolution information from the homologous sequences. Nonetheless, searching MSAs and templates from protein databases is time-consuming, usually taking dozens of minutes. Consequently, we attempt to explore the limits of fast protein structure prediction by using only primary sequences of proteins. HelixFold-Single is proposed to combine a large-scale protein language model with the superior geometric learning capability of AlphaFold2. Our proposed method, HelixFold-Single, first pre-trains a large-scale protein language model (PLM) with thousands of millions of primary sequences utilizing the self-supervised learning paradigm, which will be used as an alternative to MSAs and templates for learning the co-evolution information. Then, by combining the pre-trained PLM and the essential components of AlphaFold2, we obtain an end-to-end differentiable model to predict the 3D coordinates of atoms from only the primary sequence. HelixFold-Single is validated in datasets CASP14 and CAMEO, achieving competitive accuracy with the MSA-based methods on the targets with large homologous families. Furthermore, HelixFold-Single consumes much less time than the mainstream pipelines for protein structure prediction, demonstrating its potential in tasks requiring many predictions. The code of HelixFold-Single is available at https://github.com/PaddlePaddle/PaddleHelix/tree/dev/apps/protein_folding/helixfold-single, and we also provide stable web services on https://paddlehelix.baidu.com/app/drug/protein-single/forecast.
翻訳日:2022-07-29 12:09:27 公開日:2022-07-28
# ClaSP --パラメータフリー時系列セグメンテーション

ClaSP -- Parameter-free Time Series Segmentation ( http://arxiv.org/abs/2207.13987v1 )

ライセンス: Link先を確認
Arik Ermshaus, Patrick Sch\"afer, Ulf Leser(参考訳) 自然および人為的なプロセスの研究は、しばしば時間順の長い時系列、すなわち時系列(TS)をもたらす。 このようなプロセスは、しばしば機械の動作モードのような複数の状態から成り、観察されたプロセスの状態変化は測定された値の形状の分布の変化をもたらす。 時系列セグメンテーション(TSS)は、データ生成プロセスの変化を推論するために、TSポストホックでそのような変化を見つけようとする。 TSSは通常、統計特性によって識別可能なセグメントの識別を目的とした教師なし学習問題としてアプローチされる。 TSSの現在のアルゴリズムでは、ユーザが設定するドメイン依存のハイパーパラメータ、TS値の分布や適用性を制限する検出可能な変更のタイプについて仮定する必要がある。 一般的なハイパーパラメータはセグメントの均質性と変更点の数の尺度であり、データセットごとに特に調整が難しい。 本稿では,tssの新規かつ高精度,超パラメータフリーかつドメイン非依存な手法であるclaspを提案する。 ClaSPはTSを2つの部分に分割する。 変更点は、可能なスプリットポイント毎にバイナリTS分類器を訓練し、それぞれのパーティションからサブシーケンスを特定するのに最適な1つのスプリットを選択することで決定される。 ClaSPは、2つの新しいbespokeアルゴリズムを使用して、データから2つのモデルパラメータを学習する。 115のデータセットのベンチマークを用いた実験評価において,claspは精度の面では最先端を上回り,高速かつスケーラブルであることを示した。 さらに,いくつかの実世界のケーススタディを用いてclaspの特性を強調する。

The study of natural and human-made processes often results in long sequences of temporally-ordered values, aka time series (TS). Such processes often consist of multiple states, e.g. operating modes of a machine, such that state changes in the observed processes result in changes in the distribution of shape of the measured values. Time series segmentation (TSS) tries to find such changes in TS post-hoc to deduce changes in the data-generating process. TSS is typically approached as an unsupervised learning problem aiming at the identification of segments distinguishable by some statistical property. Current algorithms for TSS require domain-dependent hyper-parameters to be set by the user, make assumptions about the TS value distribution or the types of detectable changes which limits their applicability. Common hyperparameters are the measure of segment homogeneity and the number of change points, which are particularly hard to tune for each data set. We present ClaSP, a novel, highly accurate, hyper-parameter-free and domain-agnostic method for TSS. ClaSP hierarchically splits a TS into two parts. A change point is determined by training a binary TS classifier for each possible split point and selecting the one split that is best at identifying subsequences to be from either of the partitions. ClaSP learns its main two model-parameters from the data using two novel bespoke algorithms. In our experimental evaluation using a benchmark of 115 data sets, we show that ClaSP outperforms the state of the art in terms of accuracy and is fast and scalable. Furthermore, we highlight properties of ClaSP using several real-world case studies.
翻訳日:2022-07-29 12:08:48 公開日:2022-07-28
# 多様なトレーニングチームメイトを創出するアドホックなチームワークエージェントを目指して

Towards Robust Ad Hoc Teamwork Agents By Creating Diverse Training Teammates ( http://arxiv.org/abs/2207.14138v1 )

ライセンス: Link先を確認
Arrasy Rahman, Elliot Fosong, Ignacio Carlucho, Stefano V. Albrecht(参考訳) アドホックチームワーク(ad hoc teamwork、aht)は、以前目にしたことのないチームメイトと事前の調整なしに協力しなければならないエージェントを作成する問題である。 多くの既存のAHTメソッドは、トレーニングのために事前に定義されたチームメイトセットを必要とするタイプベースのメソッドとして分類することができる。 トレーニング用にチームメイトタイプを設計することは、トレーニング中に見つからないチームメイトタイプを扱う場合、エージェントの一般化パフォーマンスを決定する難しい問題である。 そこで本研究では,最適な応答多様性指標の最大化に基づく,多様なチームメイトタイプを検出する手法を提案する。 提案手法は,コラボレーション中に学習者から,より広い範囲のベストレスポンスを必要とするチームメイトタイプを産出することを示し,学習者のパフォーマンスを代替手法と比較して改善する可能性を示唆する。

Ad hoc teamwork (AHT) is the problem of creating an agent that must collaborate with previously unseen teammates without prior coordination. Many existing AHT methods can be categorised as type-based methods, which require a set of predefined teammates for training. Designing teammate types for training is a challenging issue that determines the generalisation performance of agents when dealing with teammate types unseen during training. In this work, we propose a method to discover diverse teammate types based on maximising best response diversity metrics. We show that our proposed approach yields teammate types that require a wider range of best responses from the learner during collaboration, which potentially improves the robustness of a learner's performance in AHT compared to alternative methods.
翻訳日:2022-07-29 12:05:35 公開日:2022-07-28
# NEATと強化学習を用いた無期限2次元ゲームプレイ

Playing a 2D Game Indefinitely using NEAT and Reinforcement Learning ( http://arxiv.org/abs/2207.14140v1 )

ライセンス: Link先を確認
Jerin Paul Selvan, Pravin S. Game(参考訳) For over a decade now, robotics and the use of artificial agents have become a common thing.Testing the performance of new path finding or search space optimization algorithms has also become a challenge as they require simulation or an environment to test them.The creation of artificial environments with artificial agents is one of the methods employed to test such algorithms.Games have also become an environment to test them.The performance of the algorithms can be compared by using artificial agents that will behave according to the algorithm in the environment they are put in.The performance parameters can be, how quickly the agent is able to differentiate between rewarding actions and hostile actions.This can be tested by placing the agent in an environment with different types of hurdles and the goal of the agent is to reach the farthest by taking decisions on actions that will lead to avoiding all the obstacles.The environment chosen is a game called "Flappy Bird". The goal of the game is to make the bird fly through a set of pipes of random heights.The bird must go in between these pipes and must not hit the top, the bottom, or the pipes themselves.The actions that the bird can take are either to flap its wings or drop down with gravity.The algorithms that are enforced on the artificial agents are NeuroEvolution of Augmenting Topologies (NEAT) and Reinforcement Learning.The NEAT algorithm takes an "N" initial population of artificial agents.They follow genetic algorithms by considering an objective function, crossover, mutation, and augmenting topologies.Reinforcement learning, on the other hand, remembers the state, the action taken at that state, and the reward received for the action taken using a single agent and a Deep Q-learning Network.The performance of the NEAT algorithm improves as the initial population of the artificial agents is increased.

For over a decade now, robotics and the use of artificial agents have become a common thing.Testing the performance of new path finding or search space optimization algorithms has also become a challenge as they require simulation or an environment to test them.The creation of artificial environments with artificial agents is one of the methods employed to test such algorithms.Games have also become an environment to test them.The performance of the algorithms can be compared by using artificial agents that will behave according to the algorithm in the environment they are put in.The performance parameters can be, how quickly the agent is able to differentiate between rewarding actions and hostile actions.This can be tested by placing the agent in an environment with different types of hurdles and the goal of the agent is to reach the farthest by taking decisions on actions that will lead to avoiding all the obstacles.The environment chosen is a game called "Flappy Bird".The goal of the game is to make the bird fly through a set of pipes of random heights.The bird must go in between these pipes and must not hit the top, the bottom, or the pipes themselves.The actions that the bird can take are either to flap its wings or drop down with gravity.The algorithms that are enforced on the artificial agents are NeuroEvolution of Augmenting Topologies (NEAT) and Reinforcement Learning.The NEAT algorithm takes an "N" initial population of artificial agents.They follow genetic algorithms by considering an objective function, crossover, mutation, and augmenting topologies.Reinforcement learning, on the other hand, remembers the state, the action taken at that state, and the reward received for the action taken using a single agent and a Deep Q-learning Network.The performance of the NEAT algorithm improves as the initial population of the artificial agents is increased.
翻訳日:2022-07-29 12:05:19 公開日:2022-07-28
# 多段階適応型等角性時系列予測のための汎用的枠組み

A general framework for multi-step ahead adaptive conformal heteroscedastic time series forecasting ( http://arxiv.org/abs/2207.14219v1 )

ライセンス: Link先を確認
Martim Sousa, Ana Maria Tom\'e, Jos\'e Moreira(参考訳) 機械学習(ML)の指数的成長は、ユーザ定義の信頼性レベルに対する各予測の不確実性の定量化に多大な関心を惹き付けている。 信頼性の高い不確実性定量化は不可欠であり、AI結果への信頼を高めるためのステップである。 これは、真のアウトプットが高い確率で設定された信頼度内でなければならない高リスク意思決定において特に重要となる。 共形予測 (conformal prediction, cp) は、任意のブラックボックスモデルで動作し、軽度な交換可能性の仮定の下で有効な予測間隔 (pis) を生成する、分布のない不確実性定量化フレームワークである。 CP方式の手法は実装が容易で計算コストも安いことから普及しているが、交換可能性の仮定は直ちに時系列予測を除外する。 最近の論文では共変量シフトに対処しているが、これはH段階の有効PIを生成する一般的な時系列予測問題には十分ではない。 このような目標を達成するために,AEnbMIMOCQR (Adaptive ensemble batch multi-output multi-output conformalized Quantile regression) と呼ばれる新しい手法を提案する。 NN5予測競合データセットにおける最先端競争手法との比較を行った。 実験を再現するコードとデータはすべて利用可能である

The exponential growth of machine learning (ML) has prompted a great deal of interest in quantifying the uncertainty of each prediction for a user-defined level of confidence. Reliable uncertainty quantification is crucial and is a step towards increased trust in AI results. It becomes especially important in high-stakes decision-making, where the true output must be within the confidence set with high probability. Conformal prediction (CP) is a distribution-free uncertainty quantification framework that works for any black-box model and yields prediction intervals (PIs) that are valid under the mild assumption of exchangeability. CP-type methods are gaining popularity due to being easy to implement and computationally cheap; however, the exchangeability assumption immediately excludes time series forecasting. Although recent papers tackle covariate shift, this is not enough for the general time series forecasting problem of producing H-step ahead valid PIs. To attain such a goal, we propose a new method called AEnbMIMOCQR (Adaptive ensemble batch multiinput multi-output conformalized quantile regression), which produces asymptotic valid PIs and is appropriate for heteroscedastic time series. We compare the proposed method against state-of-the-art competitive methods in the NN5 forecasting competition dataset. All the code and data to reproduce the experiments are made available
翻訳日:2022-07-29 12:04:47 公開日:2022-07-28
# CubeMLP:マルチモーダル感性分析と抑うつ推定のためのMLPモデル

CubeMLP: A MLP-based Model for Multimodal Sentiment Analysis and Depression Estimation ( http://arxiv.org/abs/2207.14087v1 )

ライセンス: Link先を確認
Hao Sun, Hongyi Wang, Jiaqing Liu, Yen-Wei Chen, and Lanfen Lin(参考訳) マルチモーダル感情分析と抑うつ推定は、マルチモーダルデータを用いた人間の精神状態の予測を目的とした2つの重要な研究課題である。 従来の研究は、様々なモダリティからマインド関連情報を交換・統合するための効果的な融合戦略の開発に重点を置いてきた。 MLPベースの技術は、最近様々なコンピュータビジョンタスクでかなりの成功を収めた。 そこで本研究では,特徴混合の観点からマルチモーダルアプローチを考察する。 そこで本研究では,MLPをベースとしたマルチモーダル機能処理フレームワークであるCubeMLPを紹介する。 CubeMLPは3つの独立したMLPユニットから構成され、それぞれが2つのアフィン変換を持つ。 CubeMLP は入力としてすべての関連するモダリティ特性を受け入れ、3つの軸に混合する。 cubemlpを用いて特性を抽出した後、タスク予測のために混合マルチモーダル特徴を平坦化する。 我々は,感情分析データセットであるCMU-MOSIとCMU-MOSEIと抑うつ推定データセットであるAVEC2019について実験を行った。 その結果、cubemlpは計算コストをはるかに低くして最先端のパフォーマンスを達成できることがわかった。

Multimodal sentiment analysis and depression estimation are two important research topics that aim to predict human mental states using multimodal data. Previous research has focused on developing effective fusion strategies for exchanging and integrating mind-related information from different modalities. Some MLP-based techniques have recently achieved considerable success in a variety of computer vision tasks. Inspired by this, we explore multimodal approaches with a feature-mixing perspective in this study. To this end, we introduce CubeMLP, a multimodal feature processing framework based entirely on MLP. CubeMLP consists of three independent MLP units, each of which has two affine transformations. CubeMLP accepts all relevant modality features as input and mixes them across three axes. After extracting the characteristics using CubeMLP, the mixed multimodal features are flattened for task predictions. Our experiments are conducted on sentiment analysis datasets: CMU-MOSI and CMU-MOSEI, and depression estimation dataset: AVEC2019. The results show that CubeMLP can achieve state-of-the-art performance with a much lower computing cost.
翻訳日:2022-07-29 12:04:23 公開日:2022-07-28
# PEA: プログレッシブ・アンサンブル・アクティベーションによる無料ReLUネットワークの性能向上

PEA: Improving the Performance of ReLU Networks for Free by Using Progressive Ensemble Activations ( http://arxiv.org/abs/2207.14074v1 )

ライセンス: Link先を確認
\'Akos Utasi(参考訳) 近年,ニューラルネットワークの性能向上のために新たな活性化関数が提案されている。 しかし、複雑なアクティベーションの可用性が制限され、通常はReLUのみをサポートする環境が存在する。 本稿では、モデルトレーニング中にこれらの効率的な新規アクティベーションを用いて、reluネットワークの性能を向上させる手法を提案する。 具体的には、ReLUとこれらの新しいアクティベーションの1つからなるアンサンブルアクティベーションを提案する。 さらに、アンサンブルの係数は固定も学習もしないが、トレーニングの終了までにReLU活性化のみをネットワーク内でアクティブにし、他のアクティベーションを除去できるように、トレーニングプロセス中に段階的に更新される。 これは、推論時間内にネットワークがReLUアクティベーションのみを含むことを意味する。 様々なコンパクトネットワークアーキテクチャと様々な新しい活性化関数を用いて,imagenet分類タスクの広範な評価を行う。 その結果,0.8%の精度向上が得られ,提案手法の適用性が確認された。 さらに,提案手法のセマンティックセグメンテーションを実証し,Cityscapesデータセット上で0.34%のmIOUでコンパクトセグメンテーションネットワークの性能を向上する。

In recent years novel activation functions have been proposed to improve the performance of neural networks, and they show superior performance compared to the ReLU counterpart. However, there are environments, where the availability of complex activations is limited, and usually only the ReLU is supported. In this paper we propose methods that can be used to improve the performance of ReLU networks by using these efficient novel activations during model training. More specifically, we propose ensemble activations that are composed of the ReLU and one of these novel activations. Furthermore, the coefficients of the ensemble are neither fixed nor learned, but are progressively updated during the training process in a way that by the end of the training only the ReLU activations remain active in the network and the other activations can be removed. This means that in inference time the network contains ReLU activations only. We perform extensive evaluations on the ImageNet classification task using various compact network architectures and various novel activation functions. Results show 0.2-0.8% top-1 accuracy gain, which confirms the applicability of the proposed methods. Furthermore, we demonstrate the proposed methods on semantic segmentation and we boost the performance of a compact segmentation network by 0.34% mIOU on the Cityscapes dataset.
翻訳日:2022-07-29 12:04:07 公開日:2022-07-28
# プログレッシブ・ボロノイ・ダイアグラム・サブディビジョン:初等中等教育のための全体幾何学的枠組みを目指して

Progressive Voronoi Diagram Subdivision: Towards A Holistic Geometric Framework for Exemplar-free Class-Incremental Learning ( http://arxiv.org/abs/2207.14202v1 )

ライセンス: Link先を確認
Chunwei Ma, Zhanghexuan Ji, Ziyun Huang, Yan Shen, Mingchen Gao and Jinhui Xu(参考訳) 先行フェーズからのデータリハーサルは厳格に禁止されており、Deep Neural Networks (DNN) の破滅的な忘れ込みを引き起こすため、CIL(Exemplar-free Class-incremental Learning)は難しい問題である。 本稿では,計算幾何学から派生したCILの総合的枠組みであるiVoroを提案する。 空間部分分割のための古典的なモデルであるvoronoi diagram (vd) はcil問題を解決する上で特に強力である。なぜなら、vd自体が漸進的に構築できるからである - 新しく追加されたサイト(クラス)は近位クラスにのみ影響し、非連続クラスは忘れられない。 さらに、より優れたVD構築中心を見つけるために、パワーダイアグラムを用いてDNNとVDを結合し、分割・対数アルゴリズムを用いて局所的なDNNモデルを統合することにより、VD構造が最適化可能であることを示す。 さらに,我々のVD構築は,深層特徴空間に限らず,複数の中間特徴空間にも適用可能であり,DNNから多粒度特徴を効率的に捕捉する多中心VD(CIVD)をVDに推奨する。 重要なことに、iVoroは不確実性を認識したテストタイムのヴォロノイ細胞割り当てを処理でき、幾何的不確実性と予測精度(最大0.9)の間に高い相関関係を示す。 全てをまとめると、iVoroはCIFAR-100、TinyImageNet、ImageNet-Subsetの25.26%、37.09%、33.21%の改善が達成される。 結論として、ivoroは、例えば医療アプリケーションにおいて、クロスフェーズデータ共有が禁止されている場合に特に有用である、高精度で、プライバシーを保護し、幾何学的に解釈可能なcilを可能にする。 私たちのコードはhttps://machunwei.github.io/ivoroで利用可能です。

Exemplar-free Class-incremental Learning (CIL) is a challenging problem because rehearsing data from previous phases is strictly prohibited, causing catastrophic forgetting of Deep Neural Networks (DNNs). In this paper, we present iVoro, a holistic framework for CIL, derived from computational geometry. We found Voronoi Diagram (VD), a classical model for space subdivision, is especially powerful for solving the CIL problem, because VD itself can be constructed favorably in an incremental manner -- the newly added sites (classes) will only affect the proximate classes, making the non-contiguous classes hardly forgettable. Further, in order to find a better set of centers for VD construction, we colligate DNN with VD using Power Diagram and show that the VD structure can be optimized by integrating local DNN models using a divide-and-conquer algorithm. Moreover, our VD construction is not restricted to the deep feature space, but is also applicable to multiple intermediate feature spaces, promoting VD to be multi-centered VD (CIVD) that efficiently captures multi-grained features from DNN. Importantly, iVoro is also capable of handling uncertainty-aware test-time Voronoi cell assignment and has exhibited high correlations between geometric uncertainty and predictive accuracy (up to ~0.9). Putting everything together, iVoro achieves up to 25.26%, 37.09%, and 33.21% improvements on CIFAR-100, TinyImageNet, and ImageNet-Subset, respectively, compared to the state-of-the-art non-exemplar CIL approaches. In conclusion, iVoro enables highly accurate, privacy-preserving, and geometrically interpretable CIL that is particularly useful when cross-phase data sharing is forbidden, e.g. in medical applications. Our code is available at https://machunwei.github.io/ivoro.
翻訳日:2022-07-29 12:03:40 公開日:2022-07-28
# ゲーテッド・リカレント・ユニットに基づく電力価格予測モデル

Electricity Price Forecasting Model based on Gated Recurrent Units ( http://arxiv.org/abs/2207.14225v1 )

ライセンス: Link先を確認
Nafise Rezaei, Roozbeh Rajabi, Abouzar Estebsari(参考訳) 需要対応プログラムへの消費者と生産者の参加がスマートグリッドで増加し、電力システムの投資と運用コストが削減された。 また、再生可能エネルギー源の出現に伴い、電力市場はより複雑で予測不能になりつつある。 需要対応プログラムを効果的に実施するには、電力市場の生産者にとって将来の電力価格の予測が極めて重要である。 電力価格は非常に不安定で、気温、風速、降雨量、商業活動の強さ、日々の活動量などの影響を受けている。 したがって、影響要因を依存変数として考慮すれば、予測の正確性を高めることができる。 本稿では, Gated Recurrent Units に基づく電力価格予測モデルを提案する。 このモデルでは、電気的負荷消費量を入力変数とみなす。 電力価格のノイズは分析の効率と有効性を著しく低下させる。 これにより、適応ノイズ低減器をノイズ低減モデルに統合する。 SAEはその後、ノイズのない電気価格から特徴を抽出するために使用される。 最後に、非通知機能は予測器をトレーニングするためにGRUに入力される。 実データを用いた結果から,提案手法は電力価格の予測に有効であることが示された。

The participation of consumers and producers in demand response programs has increased in smart grids, which reduces investment and operation costs of power systems. Also, with the advent of renewable energy sources, the electricity market is becoming more complex and unpredictable. To effectively implement demand response programs, forecasting the future price of electricity is very crucial for producers in the electricity market. Electricity prices are very volatile and change under the influence of various factors such as temperature, wind speed, rainfall, intensity of commercial and daily activities, etc. Therefore, considering the influencing factors as dependent variables can increase the accuracy of the forecast. In this paper, a model for electricity price forecasting is presented based on Gated Recurrent Units. The electrical load consumption is considered as an input variable in this model. Noise in electricity price seriously reduces the efficiency and effectiveness of analysis. Therefore, an adaptive noise reducer is integrated into the model for noise reduction. The SAEs are then used to extract features from the de-noised electricity price. Finally, the de-noised features are fed into the GRU to train predictor. Results on real dataset shows that the proposed methodology can perform effectively in prediction of electricity price.
翻訳日:2022-07-29 12:03:02 公開日:2022-07-28
# 多視点シーン表現を一般化する深度場ネットワーク

Depth Field Networks for Generalizable Multi-view Scene Representation ( http://arxiv.org/abs/2207.14287v1 )

ライセンス: Link先を確認
Vitor Guizilini, Igor Vasiljevic, Jiading Fang, Rares Ambrus, Greg Shakhnarovich, Matthew Walter, Adrien Gaidon(参考訳) 現代の3Dコンピュータビジョンは、学習を活用して幾何学的推論を強化し、画像データをコストボリュームやエピポーラ制約のような古典的な構造にマッピングすることでマッチングを改善する。 これらのアーキテクチャは特定の問題に特化しており、タスク固有のチューニングが必要であり、しばしばドメインの一般化性能が低下する。 近年、一般化的トランスフォーマーアーキテクチャは、強制的制約ではなく、幾何学的事前を入力として符号化することで、光学的フローや深さ推定といったタスクにおいて、目覚ましい結果を得た。 本稿では,この概念を拡張し,多視点に一貫性のある暗黙的なシーン表現を学習し,視点の多様性を増す前に幾何学的インダクティブとして一連の3次元データ拡張手法を導入することを提案する。 また,補助作業としてビュー合成を導入することにより,深度推定がさらに向上することを示す。 我々の深度場ネットワーク(define)は、明示的な幾何学的制約を伴わずにステレオおよびビデオの深さ推定を行い、ゼロショット領域の一般化を広いマージンで改善する。

Modern 3D computer vision leverages learning to boost geometric reasoning, mapping image data to classical structures such as cost volumes or epipolar constraints to improve matching. These architectures are specialized according to the particular problem, and thus require significant task-specific tuning, often leading to poor domain generalization performance. Recently, generalist Transformer architectures have achieved impressive results in tasks such as optical flow and depth estimation by encoding geometric priors as inputs rather than as enforced constraints. In this paper, we extend this idea and propose to learn an implicit, multi-view consistent scene representation, introducing a series of 3D data augmentation techniques as a geometric inductive prior to increase view diversity. We also show that introducing view synthesis as an auxiliary task further improves depth estimation. Our Depth Field Networks (DeFiNe) achieve state-of-the-art results in stereo and video depth estimation without explicit geometric constraints, and improve on zero-shot domain generalization by a wide margin.
翻訳日:2022-07-29 12:02:47 公開日:2022-07-28
# インタプリタ型センサフュージョントランスを用いた自律運転の安全性向上

Safety-Enhanced Autonomous Driving Using Interpretable Sensor Fusion Transformer ( http://arxiv.org/abs/2207.14024v1 )

ライセンス: Link先を確認
Hao Shao, LeTian Wang, RuoBing Chen, Hongsheng Li, Yu Liu(参考訳) 自動運転車の大規模展開は、安全上の懸念から、継続的に遅れている。 一方で、包括的なシーン理解は不可欠であり、その欠如は、未知のオブジェクトが突然出現するなど、稀だが複雑なトラフィック状況に脆弱性をもたらす。 しかし、グローバルなコンテキストからの推論には、複数のタイプのセンサーへのアクセスと、達成が難しいマルチモーダルセンサ信号の適切な融合が必要である。 一方で、学習モデルにおける解釈可能性の欠如は、検証不能な障害原因による安全性を損なう。 本稿では,マルチモーダル・マルチビュー・センサからの情報をフルに処理・融合し,総合的なシーン理解と対向イベント検出を実現するための,インタプリタブル・センサー・フュージョントランスフォーマタ(interfuser)という,安全性向上型自動運転フレームワークを提案する。 さらに、我々のフレームワークから中間的解釈可能な機能が生成され、よりセマンティクスを提供し、安全なセット内でのより優れた制約アクションに利用されます。 我々は、CARLAベンチマークで広範な実験を行い、我々のモデルは従来の手法よりも優れ、CARLA Leaderboardで最初にランクインした。

Large-scale deployment of autonomous vehicles has been continually delayed due to safety concerns. On the one hand, comprehensive scene understanding is indispensable, a lack of which would result in vulnerability to rare but complex traffic situations, such as the sudden emergence of unknown objects. However, reasoning from a global context requires access to sensors of multiple types and adequate fusion of multi-modal sensor signals, which is difficult to achieve. On the other hand, the lack of interpretability in learning models also hampers the safety with unverifiable failure causes. In this paper, we propose a safety-enhanced autonomous driving framework, named Interpretable Sensor Fusion Transformer(InterFuser), to fully process and fuse information from multi-modal multi-view sensors for achieving comprehensive scene understanding and adversarial event detection. Besides, intermediate interpretable features are generated from our framework, which provide more semantics and are exploited to better constrain actions to be within the safe sets. We conducted extensive experiments on CARLA benchmarks, where our model outperforms prior methods, ranking the first on the public CARLA Leaderboard.
翻訳日:2022-07-29 11:59:45 公開日:2022-07-28
# 複合汚損を用いた分散サンプル検出のための新しいデータ拡張法

A Novel Data Augmentation Technique for Out-of-Distribution Sample Detection using Compounded Corruptions ( http://arxiv.org/abs/2207.13916v1 )

ライセンス: Link先を確認
Ramya S. Hebbalaguppe, Soumya Suvra Goshal, Jatin Prakash, Harshad Khadilkar, Chetan Arora(参考訳) 最近のディープニューラルネットワークモデルは、不当に分散(ood)テストデータを、高い信頼性を持つ分散(id)トレーニングクラスに分類することが知られている。 これは安全クリティカルなアプリケーションにとって破滅的な結果をもたらす可能性がある。 一般的な緩和戦略は、テスト時にそのようなOODサンプルを検出できる別個の分類器をトレーニングすることである。 ほとんどの実践的な環境では、OODの例は列車時に知られておらず、重要な疑問は、どうやってOOD検出器を訓練するために合成OODサンプルでIDデータを増強するかである。 本稿では,CnCと呼ばれるOODデータ拡張のための新しい複合的破壊手法を提案する。 cncの主な利点の1つは、トレーニングセットとは別に保持データを必要としないことである。 さらに、現在の最先端(SOTA)技術とは異なり、CnCはテスト時にバックプロパゲーションやアンサンブルを必要としないため、メソッドの推論がはるかに高速になる。 過去4年間の大規模カンファレンスから得られた20の手法との比較から,CnCに基づくデータ拡張を用いたトレーニングモデルでは,OOD検出精度と推定時間の両方において,SOTAよりも有意に優れていた。 提案手法が成功した理由を詳細に分析し,CnC試料の相対エントロピーと多様性を潜在的原因として同定する。 また,2次元データセットの断片分解解析を通じて理論的知見を提供し,そのアプローチが,IDクラスを中心により厳密な境界を導き,OODサンプルのより優れた検出につながることを(視覚的かつ定量的に)明らかにした。 ソースコードリンク: https://github.com/cnc-ood

Modern deep neural network models are known to erroneously classify out-of-distribution (OOD) test data into one of the in-distribution (ID) training classes with high confidence. This can have disastrous consequences for safety-critical applications. A popular mitigation strategy is to train a separate classifier that can detect such OOD samples at the test time. In most practical settings OOD examples are not known at the train time, and hence a key question is: how to augment the ID data with synthetic OOD samples for training such an OOD detector? In this paper, we propose a novel Compounded Corruption technique for the OOD data augmentation termed CnC. One of the major advantages of CnC is that it does not require any hold-out data apart from the training set. Further, unlike current state-of-the-art (SOTA) techniques, CnC does not require backpropagation or ensembling at the test time, making our method much faster at inference. Our extensive comparison with 20 methods from the major conferences in last 4 years show that a model trained using CnC based data augmentation, significantly outperforms SOTA, both in terms of OOD detection accuracy as well as inference time. We include a detailed post-hoc analysis to investigate the reasons for the success of our method and identify higher relative entropy and diversity of CnC samples as probable causes. We also provide theoretical insights via a piece-wise decomposition analysis on a two-dimensional dataset to reveal (visually and quantitatively) that our approach leads to a tighter boundary around ID classes, leading to better detection of OOD samples. Source code link: https://github.com/cnc-ood
翻訳日:2022-07-29 11:59:24 公開日:2022-07-28
# 適応的カリキュラムと文脈帯域による学生の完成率の向上

Raising Student Completion Rates with Adaptive Curriculum and Contextual Bandits ( http://arxiv.org/abs/2207.14003v1 )

ライセンス: Link先を確認
Robert Belfer and Ekaterina Kochmar and Iulian Vlad Serban(参考訳) 本稿では,モデルに基づく強化学習をコンテキストバンディットとして活用し,学習活動を学生に割り当てる適応学習知的指導システムを提案する。 このモデルは、運動完了率を最大化するために何千人もの学生の軌道で訓練され、オンライン学習を続け、新しい活動に自動的に適応する。 学生によるランダム化対照試験は,本モデルが他の手法と比較して,完成率の向上と学生のエンゲージメントの向上につながることを示している。 私たちのアプローチは、学習経験のパーソナライズのための新たな機会を、完全に自動化しています。

We present an adaptive learning Intelligent Tutoring System, which uses model-based reinforcement learning in the form of contextual bandits to assign learning activities to students. The model is trained on the trajectories of thousands of students in order to maximize their exercise completion rates and continues to learn online, automatically adjusting itself to new activities. A randomized controlled trial with students shows that our model leads to superior completion rates and significantly improved student engagement when compared to other approaches. Our approach is fully-automated unlocking new opportunities for learning experience personalization.
翻訳日:2022-07-29 11:58:53 公開日:2022-07-28
# 文書理解のための統一単語ブロック事前学習

Knowing Where and What: Unified Word Block Pretraining for Document Understanding ( http://arxiv.org/abs/2207.13979v1 )

ライセンス: Link先を確認
Song Tao, Zijian Wang, Tiantian Fan, Canjie Luo, Can Huang(参考訳) 文書の複雑なレイアウトのため、文書の情報を抽出することは困難である。 これまでのほとんどの研究は、自己監督的な方法でマルチモーダル事前学習モデルを開発する。 本稿では,テキストとレイアウト情報を含む単語ブロックの埋め込み学習に着目し,統一TExtとレイアウト事前学習を備えた言語モデルであるUTelを提案する。 具体的には、レイアウト学習のための単語予測(SWP)と異なる単語ブロックを特定するための単語埋め込み(CWE)のコントラスト学習の2つの事前学習タスクを提案する。 さらに,一般的な1D位置埋め込みを1Dクリップによる相対位置埋め込みに置き換える。 このようにして、Masked Layout-Language Modeling (MLLM)と2つの新しいタスクの共同トレーニングにより、意味的特徴と空間的特徴を統一的に相互作用させることができる。 さらに、提案するUTelは、1D位置埋め込みを除去し、競合性能を維持しながら任意の長さのシーケンスを処理できる。 広範な実験結果から、utelはより優れたジョイント表現を学習し、様々な下流タスクにおける従来の方法よりも優れた性能を達成することが示されているが、イメージモダリティは必要ではない。 コードは \url{https://github.com/taosong2019/UTel} で入手できる。

Due to the complex layouts of documents, it is challenging to extract information for documents. Most previous studies develop multimodal pre-trained models in a self-supervised way. In this paper, we focus on the embedding learning of word blocks containing text and layout information, and propose UTel, a language model with Unified TExt and Layout pre-training. Specifically, we propose two pre-training tasks: Surrounding Word Prediction (SWP) for the layout learning, and Contrastive learning of Word Embeddings (CWE) for identifying different word blocks. Moreover, we replace the commonly used 1D position embedding with a 1D clipped relative position embedding. In this way, the joint training of Masked Layout-Language Modeling (MLLM) and two newly proposed tasks enables the interaction between semantic and spatial features in a unified way. Additionally, the proposed UTel can process arbitrary-length sequences by removing the 1D position embedding, while maintaining competitive performance. Extensive experimental results show UTel learns better joint representations and achieves superior performance than previous methods on various downstream tasks, though requiring no image modality. Code is available at \url{https://github.com/taosong2019/UTel}.
翻訳日:2022-07-29 11:58:42 公開日:2022-07-28
# グラフウォークとエンティティ記述を活用するエンティティタイプ予測

Entity Type Prediction Leveraging Graph Walks and Entity Descriptions ( http://arxiv.org/abs/2207.14094v1 )

ライセンス: Link先を確認
Russa Biswas, Jan Portisch, Heiko Paulheim, Harald Sack, Mehwish Alam(参考訳) DBpediaやFreebaseなどの知識グラフ(KG)のエンティティタイプ情報は、自動生成や人為的なキュレーションによって不完全であることが多い。 エンティティ型付け(entity typing)は、kg内のエンティティの意味型を割り当てたり推論したりするタスクである。 本稿では、RDF2vecの異なるグラフウォーク戦略とテキストエンティティ記述を利用したエンティティ型付けの新しいアプローチである、textit{GRAND}を提案する。 RDF2vecはまずグラフウォークを生成し、次に言語モデルを使用してグラフの各ノードへの埋め込みを取得する。 本研究は,ウォーク生成戦略と埋め込みモデルがエンティティ型付けタスクの性能に有意な影響を与えていることを示す。 提案手法は,細粒度クラスと粗粒度クラスの両方において,KGにおけるエンティティ型付けのためのベンチマークデータセットDBpediaとFIGERのベースラインアプローチよりも優れている。 その結果,順序認識型RDF2vec変種とテキストエンティティ記述の文脈埋め込みを組み合わせることで,最良の結果が得られることがわかった。

The entity type information in Knowledge Graphs (KGs) such as DBpedia, Freebase, etc. is often incomplete due to automated generation or human curation. Entity typing is the task of assigning or inferring the semantic type of an entity in a KG. This paper presents \textit{GRAND}, a novel approach for entity typing leveraging different graph walk strategies in RDF2vec together with textual entity descriptions. RDF2vec first generates graph walks and then uses a language model to obtain embeddings for each node in the graph. This study shows that the walk generation strategy and the embedding model have a significant effect on the performance of the entity typing task. The proposed approach outperforms the baseline approaches on the benchmark datasets DBpedia and FIGER for entity typing in KGs for both fine-grained and coarse-grained classes. The results show that the combination of order-aware RDF2vec variants together with the contextual embeddings of the textual entity descriptions achieve the best results.
翻訳日:2022-07-29 11:58:21 公開日:2022-07-28
# Claim-Dissector:ジョイントリグレードとVeracity予測を備えた解釈可能なFact-Checkingシステム

Claim-Dissector: An Interpretable Fact-Checking System with Joint Re-ranking and Veracity Prediction ( http://arxiv.org/abs/2207.14116v1 )

ライセンス: Link先を確認
Martin Fajcik, Petr Motlicek, Pavel Smrz(参考訳) 事実チェックと事実分析のための新しい潜在変数モデルであるクレーム・ディスセクタ(クレーム・ディスセクタ)を提案する。 (i)この主張に関係のある前兆は何か (ii)この主張の真偽は何か。 提案手法は, 提案手法を用いて, 性能関連確率とその最終精度確率への寄与を解釈可能な方法で解き放つことであり, 最終精度確率は性能関連確率の線形アンサンブルに比例する。 このようにして、どのソースが最終的な確率にどの程度寄与するかを明確に特定することができる。 本研究では,従来のファクトチェックパイプラインでよく使用される2段階のシステムに匹敵するFEVERデータセットの最先端結果を実現する一方で,パラメータや計算量を大幅に削減することを示す。 分析の結果,提案手法により,どの証明が関係しているかだけでなく,どの証明が支持につながるか,あるいは主張を否定するかを直接の監督なしに学ぶことが可能であることが示唆された。 これは解釈可能性を追加するだけでなく、矛盾する証拠でクレームを自動的に検出することを可能にする。 さらに, 粗粒度監視を用いて, モデルが細粒度関連度を学習できるかどうかを検討した。 本モデルは,段落レベルの関連監督のみを用いて,競争力のある文再呼び出しを実現することができることを示す。 最後に、関連性の最も細かい粒度に目を向けて、我々のフレームワークがトークンレベルで妥当性を識別できることを示します。 そこで本研究では,トークンレベルの解釈可能性に着目した新しいベンチマークを提案する。 次に、モデルが注目しているトークンに対するアノテーションの類似度を測定します。 私たちのコードとデータセットはオンラインでリリースされます。

We present Claim-Dissector: a novel latent variable model for fact-checking and fact-analysis, which given a claim and a set of retrieved provenances allows learning jointly: (i) what are the relevant provenances to this claim (ii) what is the veracity of this claim. We propose to disentangle the per-provenance relevance probability and its contribution to the final veracity probability in an interpretable way - the final veracity probability is proportional to a linear ensemble of per-provenance relevance probabilities. This way, it can be clearly identified the relevance of which sources contributes to what extent towards the final probability. We show that our system achieves state-of-the-art results on FEVER dataset comparable to two-stage systems typically used in traditional fact-checking pipelines, while it often uses significantly less parameters and computation. Our analysis shows that proposed approach further allows to learn not just which provenances are relevant, but also which provenances lead to supporting and which toward denying the claim, without direct supervision. This not only adds interpretability, but also allows to detect claims with conflicting evidence automatically. Furthermore, we study whether our model can learn fine-grained relevance cues while using coarse-grained supervision. We show that our model can achieve competitive sentence-recall while using only paragraph-level relevance supervision. Finally, traversing towards the finest granularity of relevance, we show that our framework is capable of identifying relevance at the token-level. To do this, we present a new benchmark focusing on token-level interpretability - humans annotate tokens in relevant provenances they considered essential when making their judgement. Then we measure how similar are these annotations to tokens our model is focusing on. Our code, and dataset will be released online.
翻訳日:2022-07-29 11:58:07 公開日:2022-07-28
# 逆テクスチャ最適化の初期化とアライメント

Initialization and Alignment for Adversarial Texture Optimization ( http://arxiv.org/abs/2207.14289v1 )

ライセンス: Link先を確認
Xiaoming Zhao and Zhizhen Zhao and Alexander G. Schwing(参考訳) 画像やビデオデータからの幾何の復元はコンピュータビジョンにおいて多くの注目を集めているが、与えられた幾何学のテクスチャを捉える方法は未成熟である。 具体的には、テクスチャ生成のための古典的な手法は、しばしばクリーンな幾何学と合理的に整合した画像データを仮定する。 直近の手法、例えば、逆向きテクスチャ最適化は、ハンドヘルドデバイスから得られる低品質データをうまく処理するが、それでも頻繁に苦労する。 近年のテクスチャ最適化において、ロバスト性を向上させるため、明示的な初期化とアライメント手順を開発した。 幾何学のテクスチャマップへの堅牢なマッピングとハードアサインに基づく初期化により、複雑な幾何学を扱う。 テクスチャリファインメント最適化に高速な画像アライメントを統合することで、幾何学と画像の誤アライメントを扱う。 テクスチャ生成の有効性を,合計2807フレームの11シーンのデータセットで示し,知覚およびシャープネス測定における7.8%と11.1%の相対的改善を観察した。

While recovery of geometry from image and video data has received a lot of attention in computer vision, methods to capture the texture for a given geometry are less mature. Specifically, classical methods for texture generation often assume clean geometry and reasonably well-aligned image data. While very recent methods, e.g., adversarial texture optimization, better handle lower-quality data obtained from hand-held devices, we find them to still struggle frequently. To improve robustness, particularly of recent adversarial texture optimization, we develop an explicit initialization and an alignment procedure. It deals with complex geometry due to a robust mapping of the geometry to the texture map and a hard-assignment-based initialization. It deals with misalignment of geometry and images by integrating fast image-alignment into the texture refinement optimization. We demonstrate efficacy of our texture generation on a dataset of 11 scenes with a total of 2807 frames, observing 7.8% and 11.1% relative improvements regarding perceptual and sharpness measurements.
翻訳日:2022-07-29 11:57:14 公開日:2022-07-28
# 透明AIに向けて:ディープニューラルネットワークの内部構造を解釈する調査

Toward Transparent AI: A Survey on Interpreting the Inner Structures of Deep Neural Networks ( http://arxiv.org/abs/2207.13243v2 )

ライセンス: Link先を確認
Tilman R\"auker, Anson Ho, Stephen Casper, Dylan Hadfield-Menell(参考訳) 機械学習の過去10年間は、スケールと能力が大幅に向上し、ディープニューラルネットワーク(dnn)がさまざまなドメインに展開されるようになっている。 しかし、DNNの内部動作は一般的に理解するのが困難であり、それらのシステムの機能に関する厳密な理解を伴わずに、これらのシステムの使用の安全性に関する懸念を提起する。 本稿では,DNNの内部成分を解釈する手法に関する文献をレビューし,これを「インナー」解釈可能性手法と呼ぶ。 具体的には、重み、ニューロン、サブネットワーク、潜在表現を解釈するための手法をレビューし、これらの技術がより安全で信頼性の高いaiシステムを設計する目的とどのように関係するかに焦点を当てる。 また,モジュール性,対向的堅牢性,連続学習,ネットワーク圧縮,人間の視覚システムの研究など,解釈可能性と作業の関連性を強調した。 最後に、診断、ベンチマーク、ロバスト性に焦点を当てたai安全性の解釈可能性に関する今後の取り組みについて論じる。

The last decade of machine learning has seen drastic increases in scale and capabilities, and deep neural networks (DNNs) are increasingly being deployed across a wide range of domains. However, the inner workings of DNNs are generally difficult to understand, raising concerns about the safety of using these systems without a rigorous understanding of how they function. In this survey, we review literature on techniques for interpreting the inner components of DNNs, which we call "inner" interpretability methods. Specifically, we review methods for interpreting weights, neurons, subnetworks, and latent representations with a focus on how these techniques relate to the goal of designing safer, more trustworthy AI systems. We also highlight connections between interpretability and work in modularity, adversarial robustness, continual learning, network compression, and studying the human visual system. Finally, we discuss key challenges and argue for future work in interpretability for AI safety that focuses on diagnostics, benchmarking, and robustness.
翻訳日:2022-07-29 11:54:12 公開日:2022-07-28
# ボット検出のための統計的キーストローク合成

Statistical Keystroke Synthesis for Improved Bot Detection ( http://arxiv.org/abs/2207.13394v2 )

ライセンス: Link先を確認
Daniel DeAlcala and Aythami Morales and Ruben Tolosana and Alejandro Acien and Julian Fierrez and Santiago Hernandez and Miguel A. Ferrer and Moises Diaz(参考訳) 本研究は,ユニバーサルモデルとユーザ依存モデルに基づくキーストロークバイオメトリックデータの合成のための2つの統計的手法を提案する。 どちらのアプローチもボット検出タスクで検証され、キーストローク合成データを使用してシステムをトレーニングする。 実験には16万8000人の被験者から1億3600万件のキーストロークイベントのデータセットが含まれています。 定性的および定量的な実験により,2つの合成手法の性能を解析した。 異なるボット検出器は、2つの教師付き分類器(サポートベクターマシンと長期短期記憶ネットワーク)と、人間と生成されたサンプルを含む学習フレームワークに基づいて検討される。 提案手法は,人間に似た合成キーストロークサンプルを生成できることを示す。 また, 分類結果から, 大規模ラベルデータの場合, 合成試料を高精度に検出できることが示唆された。 しかし、少数の学習シナリオでは、これは重要な課題である。

This work proposes two statistical approaches for the synthesis of keystroke biometric data based on Universal and User-dependent Models. Both approaches are validated on the bot detection task, using the keystroke synthetic data to better train the systems. Our experiments include a dataset with 136 million keystroke events from 168,000 subjects. We have analyzed the performance of the two synthesis approaches through qualitative and quantitative experiments. Different bot detectors are considered based on two supervised classifiers (Support Vector Machine and Long Short-Term Memory network) and a learning framework including human and generated samples. Our results prove that the proposed statistical approaches are able to generate realistic human-like synthetic keystroke samples. Also, the classification results suggest that in scenarios with large labeled data, these synthetic samples can be detected with high accuracy. However, in few-shot learning scenarios it represents an important challenge.
翻訳日:2022-07-29 11:53:55 公開日:2022-07-28
# VDL-Surrogate:エンサンブルシミュレーションのパラメータ空間探索のためのビュー依存潜在モデル

VDL-Surrogate: A View-Dependent Latent-based Model for Parameter Space Exploration of Ensemble Simulations ( http://arxiv.org/abs/2207.13091v2 )

ライセンス: Link先を確認
Neng Shi, Jiayi Xu, Hanqi Guo, Jonathan Woodring, Han-Wei Shen(参考訳) VDL-Surrogateは、高精細な可視化とユーザ特定視覚マッピングを可能にするアンサンブルシミュレーションのパラメータ空間探索のためのビュー依存ニューラルネット-ラテント-サロゲートモデルである。 代理可能なパラメータ空間探索により、多くの計算コストのかかるシミュレーションを実行することなく、ドメイン科学者はシミュレーション結果をプレビューすることができる。 しかし、計算資源によって制限された既存のサロゲートモデルは、可視化と分析に十分な解像度のプレビューを生成できない可能性がある。 計算資源の効率的な利用と高分解能探索を支援するため,様々な視点からレイキャスティングを行い,サンプルを収集し,コンパクトな潜伏表現を生成する。 この潜在符号化プロセスは、出力品質を維持しながら、サロゲートモデルトレーニングのコストを削減します。 モデル学習段階では、視界全体をカバーする視点を選択し、選択された視点に対して対応するVDL-Surrogateモデルを訓練する。 モデル推論段階では、予め選択された視点で潜在表現を予測し、潜在表現をデータ空間にデコードする。 任意の視点において、選択した視点で復号データよりも補間を行い、ユーザ指定のビジュアルマッピングを用いた可視化を生成する。 本稿では,宇宙・海洋シミュレーションにおけるvdl-surrogateの有効性と有効性を示し,定量的・質的評価を行った。 ソースコードはhttps://github.com/trainsn/VDL-Surrogateで公開されている。

We propose VDL-Surrogate, a view-dependent neural-network-latent-based surrogate model for parameter space exploration of ensemble simulations that allows high-resolution visualizations and user-specified visual mappings. Surrogate-enabled parameter space exploration allows domain scientists to preview simulation results without having to run a large number of computationally costly simulations. Limited by computational resources, however, existing surrogate models may not produce previews with sufficient resolution for visualization and analysis. To improve the efficient use of computational resources and support high-resolution exploration, we perform ray casting from different viewpoints to collect samples and produce compact latent representations. This latent encoding process reduces the cost of surrogate model training while maintaining the output quality. In the model training stage, we select viewpoints to cover the whole viewing sphere and train corresponding VDL-Surrogate models for the selected viewpoints. In the model inference stage, we predict the latent representations at previously selected viewpoints and decode the latent representations to data space. For any given viewpoint, we make interpolations over decoded data at selected viewpoints and generate visualizations with user-specified visual mappings. We show the effectiveness and efficiency of VDL-Surrogate in cosmological and ocean simulations with quantitative and qualitative evaluations. Source code is publicly available at https://github.com/trainsn/VDL-Surrogate.
翻訳日:2022-07-29 11:53:39 公開日:2022-07-28
# InterACT: ネットワーク上の分散二段階学習における低サンプル・通信複雑性の実現

INTERACT: Achieving Low Sample and Communication Complexities in Decentralized Bilevel Learning over Networks ( http://arxiv.org/abs/2207.13283v2 )

ライセンス: Link先を確認
Zhuqing Liu, Xin Zhang, Prashant Khanduri, Songtao Lu, and Jia Liu(参考訳) 近年、ピアツーピアネットワーク(例えば、マルチエージェントメタラーニング、マルチエージェント強化学習、パーソナライズドトレーニング、ビザンチン・レジリエント学習)における分散学習問題のモデリングの汎用性により、ネットワークや機械学習コミュニティでは、分散二段階最適化の問題が注目されている。 しかしながら、計算能力と通信能力に制限のあるピアツーピアネットワーク上での分散二レベル最適化では、サンプルと通信の複雑さの低さを実現するには、2つの根本的な課題がある。 本稿では,非凸および強凸構造を持つ分散二段階最適化問題のクラスを,それぞれ外および内部のサブプロブレムに対応するものとして検討する。 本論文の主な貢献は次の2つです。 i) InterACT (inner-gradient-descent-outer-tracked-gradient) と呼ばれる決定論的アルゴリズムをまず提案する。このアルゴリズムでは,各エージェントのサンプル数と所望の定常差をそれぞれ$n$と$0$で解決するために,$\mathcal{O}(n \epsilon^{-1})$と$\mathcal{O}(\epsilon^{-1})$の通信複雑性を必要とする。 i) 各繰り返しにおける完全な勾配評価の必要性を緩和するために,決定論的アルゴリズムと同じ通信複雑性を達成しつつ,サンプルの複雑さを$\mathcal{O}(\sqrt{n} \epsilon^{-1})$に改善したInteract(SVR-INTERACT)の確率的分散還元版を提案する。 私たちの知る限りでは、この研究は、ネットワーク上の分散二レベル最適化問題を解決するために、サンプルと通信の複雑さの低さを実現する最初の方法です。 我々の数値実験も我々の理論的な結果を裏付けている。

In recent years, decentralized bilevel optimization problems have received increasing attention in the networking and machine learning communities thanks to their versatility in modeling decentralized learning problems over peer-to-peer networks (e.g., multi-agent meta-learning, multi-agent reinforcement learning, personalized training, and Byzantine-resilient learning). However, for decentralized bilevel optimization over peer-to-peer networks with limited computation and communication capabilities, how to achieve low sample and communication complexities are two fundamental challenges that remain under-explored so far. In this paper, we make the first attempt to investigate the class of decentralized bilevel optimization problems with nonconvex and strongly-convex structure corresponding to the outer and inner subproblems, respectively. Our main contributions in this paper are two-fold: i) We first propose a deterministic algorithm called INTERACT (inner-gradient-descent-outer-tracked-gradient) that requires the sample complexity of $\mathcal{O}(n \epsilon^{-1})$ and communication complexity of $\mathcal{O}(\epsilon^{-1})$ to solve the bilevel optimization problem, where $n$ and $\epsilon > 0$ are the number of samples at each agent and the desired stationarity gap, respectively. ii) To relax the need for full gradient evaluations in each iteration, we propose a stochastic variance-reduced version of INTERACT (SVR-INTERACT), which improves the sample complexity to $\mathcal{O}(\sqrt{n} \epsilon^{-1})$ while achieving the same communication complexity as the deterministic algorithm. To our knowledge, this work is the first that achieves both low sample and communication complexities for solving decentralized bilevel optimization problems over networks. Our numerical experiments also corroborate our theoretical findings.
翻訳日:2022-07-29 11:53:15 公開日:2022-07-28
# 車両ナンバープレート識別用ヨーロ及びマスクr-cnn

YOLO and Mask R-CNN for Vehicle Number Plate Identification ( http://arxiv.org/abs/2207.13165v2 )

ライセンス: Link先を確認
Siddharth Ganjoo(参考訳) ナンバープレートスキャナーはここ数年、駐車場で人気が高まっている。 ナンバープレートを素早く識別するために、駐車場で使用される従来のプレート認識装置は、固定された光源と発射角度を用いる。 超広角レンズや魚眼レンズで撮影されたライセンスプレート画像のような歪んだ角度に対しても、ライセンスプレート認識板の変形は極めて深刻であり、標準ライセンスプレート認識システムによるプレートの識別性を損なう。 マスクのrcnnガジェットは、斜めの写真やさまざまな撮影角度に使えるかもしれない。 実験の結果,提案した設計では,0/60以上のベベル角度でナンバープレートを分類できることがわかった。 Mask R-CNNアプローチを用いた文字認識も大幅に進歩している。 提案したMask R-CNN法は, YOLOv2モデルを用いた手法と比較して45度以上傾いた文字認識にも大きな進歩をもたらした。 実験結果は、オープンデータプレート収集で提示される方法論は他の技術(AOLPデータセットとして知られる)よりも優れていることを示唆している。

License plate scanners have grown in popularity in parking lots during the past few years. In order to quickly identify license plates, traditional plate recognition devices used in parking lots employ a fixed source of light and shooting angles. For skewed angles, such as license plate images taken with ultra-wide angle or fisheye lenses, deformation of the license plate recognition plate can also be quite severe, impairing the ability of standard license plate recognition systems to identify the plate. Mask RCNN gadget that may be utilised for oblique pictures and various shooting angles. The results of the experiments show that the suggested design will be capable of classifying license plates with bevel angles larger than 0/60. Character recognition using the suggested Mask R-CNN approach has advanced significantly as well. The proposed Mask R-CNN method has also achieved significant progress in character recognition, which is tilted more than 45 degrees as compared to the strategy of employing the YOLOv2 model. Experiment results also suggest that the methodology presented in the open data plate collecting is better than other techniques (known as the AOLP dataset).
翻訳日:2022-07-29 11:52:32 公開日:2022-07-28
# 敵に近づこう: 教師と教師の模倣による攻撃を学ぶ

Look Closer to Your Enemy: Learning to Attack via Teacher-student Mimicking ( http://arxiv.org/abs/2207.13381v2 )

ライセンス: Link先を確認
Mingejie Wang, Zhiqing Tang, Sirui Li and Dingwen Xiao(参考訳) 本稿では,敵の心(VM)を読み取ることによって,人物の再識別の現実的な攻撃サンプルであるReIDを生成することを目的とする。 本稿では,新たな不明瞭かつ制御可能なReID攻撃ベースラインであるLCYEを提案する。 具体的には、LCYEが最初にVMの知識を、プロキシタスクで模倣する教師-学生メモリ経由で蒸留する。 次に、この知識は、vmが信じている本質的かつ現実的なものを伝える明示的な暗号として振る舞う。 さらに、LCYEの複数の対立するタスク・フレームワークの恩恵を受け、クロスドメイン適応、クロスモデル・コンセンサス、オンライン学習プロセスを含む敵攻撃の観点からReIDモデルの解釈可能性と一般化について検討する。 4つのreidベンチマークに関する広範囲な実験により、この手法はホワイトボックス、ブラックボックス、ターゲット攻撃において、最先端の攻撃者よりも優れていることが示された。 私たちのコードはhttps://gitfront.io/r/user-3704489/mKXusqDT4ffr/LCYE/で利用可能です。

This paper aims to generate realistic attack samples of person re-identification, ReID, by reading the enemy's mind (VM). In this paper, we propose a novel inconspicuous and controllable ReID attack baseline, LCYE, to generate adversarial query images. Concretely, LCYE first distills VM's knowledge via teacher-student memory mimicking in the proxy task. Then this knowledge prior acts as an explicit cipher conveying what is essential and realistic, believed by VM, for accurate adversarial misleading. Besides, benefiting from the multiple opposing task framework of LCYE, we further investigate the interpretability and generalization of ReID models from the view of the adversarial attack, including cross-domain adaption, cross-model consensus, and online learning process. Extensive experiments on four ReID benchmarks show that our method outperforms other state-of-the-art attackers with a large margin in white-box, black-box, and target attacks. Our code is now available at https://gitfront.io/r/user-3704489/mKXusqDT4ffr/LCYE/.
翻訳日:2022-07-29 11:52:16 公開日:2022-07-28
# 歪み最小化のためのリーマン幾何学的アプローチとその応用

Riemannian Geometry Approach for Minimizing Distortion and its Applications ( http://arxiv.org/abs/2207.12038v3 )

ライセンス: Link先を確認
Dror Ozeri(参考訳) Affine 変換 $T$ が与えられたとき、Fisher 歪み $Dist_F(T)$ を定義する。 フィッシャー歪はリーマン計量構造を有しており、与えられたアフィン変換の集合 $\{t_{i}\}_{i=1}^n$ に対して平均歪変換を求めるアルゴリズムを提供し、全体的な歪み$\sum_{i=1}^ndist_f^{2}(t^{-1}t_{i})を最小化するアフィン変換$t$を求める。 例えば、アフィンパノラマのレンダリングにこの変換を適用します。

Given an affine transformation $T$, we define its Fisher distortion $Dist_F(T)$. We show that the Fisher distortion has Riemannian metric structure and provide an algorithm for finding mean distorting transformation -- namely -- for a given set $\{T_{i}\}_{i=1}^N$ of affine transformations, find an affine transformation $T$ that minimize the overall distortion $\sum_{i=1}^NDist_F^{2}(T^{-1}T_{i}).$ The mean distorting transformation can be useful in some fields -- in particular, we apply it for rendering affine panoramas.
翻訳日:2022-07-29 11:51:55 公開日:2022-07-28
# PHEMEPlus:外部証拠によるソーシャルメディアの検証強化

PHEMEPlus: Enriching Social Media Rumour Verification with External Evidence ( http://arxiv.org/abs/2207.13970v1 )

ライセンス: Link先を確認
John Dougrez-Lewis, Elena Kochkina, M. Arana-Catania, Maria Liakata, Yulan He(参考訳) ソーシャルメディアの噂の検証作業は、投稿、伝播、および関連するユーザーからの信号を活用する。 その他の作業は、wikipediaの情報に基づく識別や事実確認、あるいはソーシャルメディアの文脈を考慮せずに信頼できるニュース記事などを対象としている。 しかし、ソーシャルメディアからの情報と、より広いウェブからの外部証拠を組み合わせた研究は不足している。 そこで本研究では,PHEMEベンチマークの拡張であるPHEMEPlusという新たなデータセットを公開し,ソーシャルメディアの会話だけでなく,各噂の外部証拠も含んでいる。 噂検証モデルの改善にこのような証拠を組み込むことの有効性を実証する。 さらに,エビデンス収集の一環として,クエリの定式化方法を評価し,最も有効な方法を特定する。

Work on social media rumour verification utilises signals from posts, their propagation and users involved. Other lines of work target identifying and fact-checking claims based on information from Wikipedia, or trustworthy news articles without considering social media context. However works combining the information from social media with external evidence from the wider web are lacking. To facilitate research in this direction, we release a novel dataset, PHEMEPlus, an extension of the PHEME benchmark, which contains social media conversations as well as relevant external evidence for each rumour. We demonstrate the effectiveness of incorporating such evidence in improving rumour verification models. Additionally, as part of the evidence collection, we evaluate various ways of query formulation to identify the most effective method.
翻訳日:2022-07-29 11:51:42 公開日:2022-07-28
# 自然言語による多段階推論--分布の一般化に関する実証的研究

Multi-Step Deductive Reasoning Over Natural Language: An Empirical Study on Out-of-Distribution Generalisation ( http://arxiv.org/abs/2207.14000v1 )

ライセンス: Link先を確認
Qiming Bao, Alex Yuxuan Peng, Tim Hartill, Neset Tan, Zhenyun Deng, Michael Witbrock, Jiamou Liu(参考訳) 深層学習と記号論理推論を組み合わせることは、両方の分野の成功に乗じることを目的としており、注目を集めている。 論理プログラム上で推論を行うようにトレーニングされたエンドツーエンドモデルであるdeeplogicに着想を得て,自然言語で表現された多段階推論のための反復的ニューラルネットワークであるima-glove-gaを導入した。 本モデルでは,ゲートアテンション機構を備えたRNNに基づく反復型メモリニューラルネットワークを用いて推論を行う。 IMA-GloVe-GAを3つのデータセット(PARARULES, CONCEPTRULES V1, CONCEPTRULES V2)で評価した。 実験の結果,deeplogic は deeplogic や他の rnn ベースラインモデルよりも高いテスト精度を達成できることがわかった。 このモデルでは,ルールがシャッフルされた場合,RoBERTa-Largeよりも分布外一般化が優れている。 さらに,現在の多段階推論データセットにおける推論深度の不均衡分布問題に対処するために,より深い推論ステップを必要とする大規模データセットであるpararule-plusを開発した。 実験結果から,PARARULE-Plusの追加により,より深い推論深度を必要とする例において,モデルの性能が向上することが示された。 ソースコードとデータはhttps://github.com/Strong-AI-Lab/Multi-Step-Deductive-Reasoning-Over-Natural-Languageで公開されている。

Combining deep learning with symbolic logic reasoning aims to capitalize on the success of both fields and is drawing increasing attention. Inspired by DeepLogic, an end-to-end model trained to perform inference on logic programs, we introduce IMA-GloVe-GA, an iterative neural inference network for multi-step reasoning expressed in natural language. In our model, reasoning is performed using an iterative memory neural network based on RNN with a gate attention mechanism. We evaluate IMA-GloVe-GA on three datasets: PARARULES, CONCEPTRULES V1 and CONCEPTRULES V2. Experimental results show DeepLogic with gate attention can achieve higher test accuracy than DeepLogic and other RNN baseline models. Our model achieves better out-of-distribution generalisation than RoBERTa-Large when the rules have been shuffled. Furthermore, to address the issue of unbalanced distribution of reasoning depths in the current multi-step reasoning datasets, we develop PARARULE-Plus, a large dataset with more examples that require deeper reasoning steps. Experimental results show that the addition of PARARULE-Plus can increase the model's performance on examples requiring deeper reasoning depths. The source code and data are available at https://github.com/Strong-AI-Lab/Multi-Step-Deductive-Reasoning-Over-Natural-Language.
翻訳日:2022-07-29 11:51:28 公開日:2022-07-28
# 一般サムマルコフゲームにおける後悔の最小化と平衡への収束

Regret Minimization and Convergence to Equilibria in General-sum Markov Games ( http://arxiv.org/abs/2207.14211v1 )

ライセンス: Link先を確認
Liad Erez, Tal Lancewicki, Uri Sherman, Tomer Koren and Yishay Mansour(参考訳) 近年の不可能性が豊富にあることから、敵対相手のマルコフゲームにおける後悔の最小化は統計的にも計算的にも難解である。 それでも、これらの結果は、すべての当事者が同じ学習手順を採用するという仮定の下で、後悔の最小化を妨げない。 本研究では,すべてのエージェントが実行した際のサブ線形後悔保証を提供する汎用マルコフゲームにおいて,学習のための最初の(知識への)アルゴリズムを提案する。 我々が得た境界は、スワップ後悔のためであり、それゆえ、その過程で、相関均衡への収束を意味する。 アルゴリズムは分散化され,計算効率が高く,エージェント間の通信は不要である。 我々のキーとなる観察は、マルコフゲームにおけるポリシー最適化によるオンライン学習は本質的に、エージェントのポリシーシーケンスのパス長によって決定される未知の重み付き後悔の最小化の形に還元されるということである。 その結果、経路長の制御は、十分に適応されたアルゴリズムがサブ線形後悔保証を提供する、重み付けされた後悔目標をもたらす。

An abundance of recent impossibility results establish that regret minimization in Markov games with adversarial opponents is both statistically and computationally intractable. Nevertheless, none of these results preclude the possibility of regret minimization under the assumption that all parties adopt the same learning procedure. In this work, we present the first (to our knowledge) algorithm for learning in general-sum Markov games that provides sublinear regret guarantees when executed by all agents. The bounds we obtain are for swap regret, and thus, along the way, imply convergence to a correlated equilibrium. Our algorithm is decentralized, computationally efficient, and does not require any communication between agents. Our key observation is that online learning via policy optimization in Markov games essentially reduces to a form of weighted regret minimization, with unknown weights determined by the path length of the agents' policy sequence. Consequently, controlling the path length leads to weighted regret objectives for which sufficiently adaptive algorithms provide sublinear regret guarantees.
翻訳日:2022-07-29 11:51:03 公開日:2022-07-28